論文の概要: InDEX: Indonesian Idiom and Expression Dataset for Cloze Test
- arxiv url: http://arxiv.org/abs/2211.13376v1
- Date: Thu, 24 Nov 2022 02:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:10:27.985949
- Title: InDEX: Indonesian Idiom and Expression Dataset for Cloze Test
- Title(参考訳): InDEX:クローズテストのためのインドネシアのイディオムと表現データセット
- Authors: Xinying Qiu, Guofeng Shi
- Abstract要約: InDEXは,クローゼテストのためのインドネシア語表現とデータセットである。
データセットには289のイディオムと表現のための10438の文が含まれている。
我々は15種類のイントラクタを生成し、その結果、大きなクローゼスタイルのコーパスが生成される。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose InDEX, an Indonesian Idiom and Expression dataset for cloze test.
The dataset contains 10438 unique sentences for 289 idioms and expressions for
which we generate 15 different types of distractors, resulting in a large
cloze-style corpus. Many baseline models of cloze test reading comprehension
apply BERT with random initialization to learn embedding representation. But
idioms and fixed expressions are different such that the literal meaning of the
phrases may or may not be consistent with their contextual meaning. Therefore,
we explore different ways to combine static and contextual representations for
a stronger baseline model. Experimentations show that combining definition and
random initialization will better support cloze test model performance for
idioms whether independently or mixed with fixed expressions. While for fixed
expressions with no special meaning, static embedding with random
initialization is sufficient for cloze test model.
- Abstract(参考訳): 本稿では,インドネシアのIdiom and ExpressionデータセットであるInDEXを提案する。
データセットには289のイディオムのための10438の独特な文と、15種類の邪魔者を生成し、大きなクローズスタイルのコーパスを生成する式が含まれている。
clozeテスト読解の多くのベースラインモデルは、埋め込み表現を学ぶためにランダム初期化のbertを適用する。
しかし、イディオムや固定式は、句の文字通りの意味が文脈的な意味と一致するか、あるいは一致しないかによって異なる。
そこで我々は,より強力なベースラインモデルに対して,静的表現と文脈表現を組み合わせる様々な方法を検討する。
実験により、定義とランダム初期化の組み合わせは、固定式と独立であるか混合するかに関わらず、イディオムのclozeテストモデルのパフォーマンスをより良くサポートすることが示された。
特別な意味を持たない固定式の場合、ランダム初期化を伴う静的埋め込みはclozeテストモデルに十分である。
関連論文リスト
- Contextualized Automatic Speech Recognition with Dynamic Vocabulary [41.892863381787684]
本稿では,推論中にバイアストークンを付加できる動的語彙を提案する。
バイアスリストの各エントリは、既存のサブワードトークンのシーケンスとは異なり、単一のトークンとして表現される。
実験の結果,提案手法は英語と日本語のデータセットにおけるバイアスフレーズWERを3.1~4.9ポイント改善することがわかった。
論文 参考訳(メタデータ) (2024-05-22T05:03:39Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な公的な懸念は、著作権のあるオンラインテキストを悪用するかどうかである。
事前の会員推定法は、大量のトレーニングデータに類似した例によって誤解されることがある。
本稿では,Webユーザとコンテンツプラットフォームがtextbftextitunique 識別子を使用することを推奨する代替のtextitinsert-and-detection 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z) - IBERT: Idiom Cloze-style reading comprehension with Attention [0.0]
The cloze task is a challenge problem in Natural Language Processing (NLP) research problem。
このタスクに対する従来のアプローチは、Seq2Seq(Seq2Seq)モデルに基づいて構築されている。
本稿では,言語表現を符号化し,グローバルな文脈とローカルな文脈の両方で考慮する,BERTベースの埋め込みSeq2Seqモデルを提案する。
論文 参考訳(メタデータ) (2021-11-05T21:37:15Z) - Idiomatic Expression Identification using Semantic Compatibility [8.355785779504869]
文が慣用的表現を持っているかどうかを検知し,それを局所化するタスクについて検討する。
本稿では,これらの表現を識別するためのアテンションフロー機構を備えた多段階ニューラルアーキテクチャを提案する。
このモデルの健全な特徴は、トレーニング中に見えないイディオムを識別できることであり、競争ベースラインよりも1.4%から30.8%向上している。
論文 参考訳(メタデータ) (2021-10-19T15:44:28Z) - Double Perturbation: On the Robustness of Robustness and Counterfactual
Bias Evaluation [109.06060143938052]
テストデータセットを超えたモデル弱点を明らかにするための"ダブル摂動"フレームワークを提案する。
この枠組みを,モデルの頑健さと英語における反事実バイアスの分析に使用される2つの摂動に基づくアプローチに応用する。
論文 参考訳(メタデータ) (2021-04-12T06:57:36Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - CharBERT: Character-aware Pre-trained Language Model [36.9333890698306]
本稿ではCharBERTという文字認識事前学習言語モデルを提案する。
まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。
次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
論文 参考訳(メタデータ) (2020-11-03T07:13:06Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - EPIE Dataset: A Corpus For Possible Idiomatic Expressions [11.891511657648941]
717の慣用表現の語彙例をラベル付けした25206文を含む英語Possibleatic(EPIE)コーパスを提示する。
また、シーケンスラベリングモジュールをトレーニングし、高い精度、精度、リコールスコアで3つの独立したデータセット上でテストすることで、データセットの有用性を示す。
論文 参考訳(メタデータ) (2020-06-16T19:43:30Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。