論文の概要: SCDE: Sentence Cloze Dataset with High Quality Distractors From
Examinations
- arxiv url: http://arxiv.org/abs/2004.12934v1
- Date: Mon, 27 Apr 2020 16:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:20:48.155793
- Title: SCDE: Sentence Cloze Dataset with High Quality Distractors From
Examinations
- Title(参考訳): scde: 検査から高品質の気晴らしを持つ文クローゼデータセット
- Authors: Xiang Kong, Varun Gangal, Eduard Hovy
- Abstract要約: 本稿では,文予測による計算モデルの性能評価のためのデータセットであるSCDEを紹介する。
SCDE (英語: SCDE) は、公立学校の英語試験から収集した人為的な文のクローゼデータセットである。
- 参考スコア(独自算出の注目度): 30.86193649398141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SCDE, a dataset to evaluate the performance of computational
models through sentence prediction. SCDE is a human-created sentence cloze
dataset, collected from public school English examinations. Our task requires a
model to fill up multiple blanks in a passage from a shared candidate set with
distractors designed by English teachers. Experimental results demonstrate that
this task requires the use of non-local, discourse-level context beyond the
immediate sentence neighborhood. The blanks require joint solving and
significantly impair each other's context. Furthermore, through ablations, we
show that the distractors are of high quality and make the task more
challenging. Our experiments show that there is a significant performance gap
between advanced models (72%) and humans (87%), encouraging future models to
bridge this gap.
- Abstract(参考訳): 文予測による計算モデルの性能評価のためのデータセットであるscdeを提案する。
scdeは人間の作成した文クローズデータセットで、公立学校の英語の試験から収集される。
我々の課題は、英語教師が設計した気を散らすような共用候補から、複数の空白を埋めるモデルを必要とする。
実験結果から,この課題には即時文近傍以外の非局所的談話レベルコンテキストの使用が必要であることが示された。
空白は共同解決を必要とし、お互いのコンテキストを著しく損なう。
さらに,アブリケーションにより,気晴らしが高品質であること,タスクをより困難にしていることを示す。
我々の実験は、先進モデル(72%)と人間(87%)の間に大きなパフォーマンスギャップがあることを示し、将来のモデルがこのギャップを埋めるように促している。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - ProsAudit, a prosodic benchmark for self-supervised speech models [14.198508548718676]
ProsAuditは、自己教師付き学習(SSL)音声モデルにおける構造的韻律的知識を評価するためのベンチマークである。
2つのサブタスク、対応するメトリクス、評価データセットで構成される。
論文 参考訳(メタデータ) (2023-02-23T14:30:23Z) - Findings on Conversation Disentanglement [28.874162427052905]
発話から発話への分類と発話からスレッドへの分類を学習する学習モデルを構築した。
Ubuntu IRCデータセットの実験は、このアプローチが従来の欲求的アプローチを上回る可能性があることを示している。
論文 参考訳(メタデータ) (2021-12-10T05:54:48Z) - Agreeing to Disagree: Annotating Offensive Language Datasets with
Annotators' Disagreement [7.288480094345606]
我々は、アノテータ間の合意のレベルに着目し、攻撃的な言語データセットを作成するためにデータを選択する。
本研究は、異なるトピックをカバーする英語ツイートの3つの新しいデータセットを作成することを含む。
合意の低さがあるような難しいケースは、必ずしも品質の悪いアノテーションによるものではないことを示す。
論文 参考訳(メタデータ) (2021-09-28T08:55:04Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Exploiting Unsupervised Data for Emotion Recognition in Conversations [76.01690906995286]
会話における感情認識(Emotion Recognition in Conversations:ERC)は、会話における話者の感情状態を予測することを目的としている。
ERCタスクの教師付きデータは限られている。
教師なし会話データを活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-02T13:28:47Z) - How to Probe Sentence Embeddings in Low-Resource Languages: On
Structural Design Choices for Probing Task Evaluation [82.96358326053115]
構造設計選択に対する探索作業結果の感度について検討する。
我々は、英語で識別する「安定な領域」にある設計選択を多言語で構成した埋め込みを探索する。
私たちは英語の結果が他の言語に移行しないことに気付きます。
論文 参考訳(メタデータ) (2020-06-16T12:37:50Z) - Pretraining with Contrastive Sentence Objectives Improves Discourse
Performance of Language Models [29.40992909208733]
本研究では,会話コヒーレンスと文間距離をモデル化した言語モデルの事前学習のための文間目的であるconPONOを提案する。
談話表現ベンチマークのDiscoEvalでは、これまでの最先端技術よりも最大13%改善しています。
また,言論を明示的に評価しないタスクにおいても,ConPONOは2%~6%の利得が得られることを示した。
論文 参考訳(メタデータ) (2020-05-20T23:21:43Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z) - Words aren't enough, their order matters: On the Robustness of Grounding
Visual Referring Expressions [87.33156149634392]
視覚的参照表現認識のための標準ベンチマークであるRefCOgを批判的に検討する。
83.7%のケースでは言語構造に関する推論は不要である。
比較学習とマルチタスク学習の2つの手法を提案し,ViLBERTのロバスト性を高める。
論文 参考訳(メタデータ) (2020-05-04T17:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。