論文の概要: TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions
- arxiv url: http://arxiv.org/abs/2005.00242v2
- Date: Tue, 6 Oct 2020 03:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:36:15.050720
- Title: TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions
- Title(参考訳): トルク:時間順序問題に対する読み解きデータセット
- Authors: Qiang Ning, Hao Wu, Rujun Han, Nanyun Peng, Matt Gardner, Dan Roth
- Abstract要約: TORQUEは3.2kニュース上に構築された新しい英語読解ベンチマークで、時間的関係を問う質問を21kで生成する。
以上の結果から,RoBERTa-largeスニペットはTORQUEの試験セットで51%の精度で一致し,約30%が人体性能に遅れていることがわかった。
- 参考スコア(独自算出の注目度): 91.85730323228833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A critical part of reading is being able to understand the temporal
relationships between events described in a passage of text, even when those
relationships are not explicitly stated. However, current machine reading
comprehension benchmarks have practically no questions that test temporal
phenomena, so systems trained on these benchmarks have no capacity to answer
questions such as "what happened before/after [some event]?" We introduce
TORQUE, a new English reading comprehension benchmark built on 3.2k news
snippets with 21k human-generated questions querying temporal relationships.
Results show that RoBERTa-large achieves an exact-match score of 51% on the
test set of TORQUE, about 30% behind human performance.
- Abstract(参考訳): 読解の重要な部分は、たとえそれらの関係が明示的に述べられなくても、テキストに記述された出来事間の時間的関係を理解できることである。
しかし、現在の機械読解ベンチマークは、時間現象をテストするための質問がほとんどないため、これらのベンチマークで訓練されたシステムには、"前/後(ある出来事)に何が起こったか"といった質問に答える能力がない。
TORQUEは3.2kニューススニペット上に構築された,時間的関係を問う21kの質問に対する新しい英語読解ベンチマークである。
その結果,RoBERTa-large は TORQUE の試験セットで 51% の精度で一致した。
関連論文リスト
- RAG-ConfusionQA: A Benchmark for Evaluating LLMs on Confusing Questions [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,与えられた文書コーパスから,文脈に乱れた多様な質問を効率的に生成する,新しい合成データ生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - On the Role of Context in Reading Time Prediction [50.87306355705826]
我々は,リアルタイム言語理解において,読者がコンテキストをどのように統合するかについて,新たな視点を提示する。
提案手法は,言語単位の処理作業が文脈内情報の内容のアフィン関数であることを示す素因的理論に基づいている。
論文 参考訳(メタデータ) (2024-09-12T15:52:22Z) - Question Generation for Reading Comprehension Assessment by Modeling How
and What to Ask [3.470121495099]
本研究では,推論的質問が重要となる読解のための質問生成(QG)について検討する。
本稿では,従来のデータセットを利用した2段階モデル(HTA-WTA)を提案する。
HTA-WTAモデルでは,深い推論を問うことで,強いSCRSの検証を行う。
論文 参考訳(メタデータ) (2022-04-06T15:52:24Z) - QuALITY: Question Answering with Long Input Texts, Yes! [27.700792723226524]
平均トークン長が約5,000である英語のコンテキストパスを持つデータセットQuALITYを紹介した。
パスに関する以前の作業とは異なり、私たちの質問は、パス全体を読んだコントリビュータによって書かれ、検証されます。
厳密な時間制約の下で作業しているアノテータによって答えられる質問はたった半数だ。
論文 参考訳(メタデータ) (2021-12-16T04:14:38Z) - What Makes Sentences Semantically Related: A Textual Relatedness Dataset
and Empirical Study [31.062129406113588]
本稿では,5500の英文対を手動で注釈付けしたセマンティックテキスト関連性データセットSTR-2022を紹介する。
文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。
また, STR-2022は, 文章表現の自動手法や, 下流の様々なNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-10-10T16:23:54Z) - ESTER: A Machine Reading Comprehension Dataset for Event Semantic
Relation Reasoning [49.795767003586235]
イベントセマンティックリレーション推論のための包括的な機械学習理解データセットESTERを紹介します。
もっともよく使われるイベント意味関係を5つ検討し、質問応答タスクとして定式化します。
実験の結果、現在のSOTAシステムは、イベントベースF1、トークンベースF1、HIT@1スコアそれぞれ60.5%、57.8%、76.3%を達成した。
論文 参考訳(メタデータ) (2021-04-16T19:59:26Z) - Temporal Reasoning on Implicit Events from Distant Supervision [91.20159064951487]
本稿では,暗黙的事象の理解度を評価する新しい時間的推論データセットを提案する。
我々は、暗黙の出来事と明示的な出来事の間の時間的関係を予測する際に、最先端のモデルが苦労していることを発見した。
本稿では,大規模テキストからの遠隔監視信号を利用して終末時刻を推定する,ニューロシンボリックな時間的推論モデルSYMTIMEを提案する。
論文 参考訳(メタデータ) (2020-10-24T03:12:27Z) - Temporal Common Sense Acquisition with Minimal Supervision [77.8308414884754]
この研究は、時間的常識の明示的で暗黙的な言及を活用する新しいシーケンスモデリング手法を提案する。
本手法は,時間的共通感覚の様々な次元の質予測を行う。
また、時間比較、親子関係、イベントコア参照、時間的QAなど、関連するタスクに対するイベントの表現も生成する。
論文 参考訳(メタデータ) (2020-05-08T22:20:16Z) - STARC: Structured Annotations for Reading Comprehension [23.153841344989143]
複数の選択肢を問う読み理解を評価するための新しいアノテーションフレームワークSTARCを提案する。
このフレームワークはOneStopQAで実装されており、英語の読み理解の評価と分析のための新しい高品質データセットである。
論文 参考訳(メタデータ) (2020-04-30T14:08:50Z) - Conversational Question Answering over Passages by Leveraging Word
Proximity Networks [33.59664244897881]
CROWNは、経路応答を持つ会話型QAのための教師なしかつ効果的なシステムである。
複数のターンにまたがる複数のコンテキストの伝搬をサポートする。
CROWNはTREC CAsTデータで評価され、ニューラルネットワークのプールにおいて上述の性能を達成した。
論文 参考訳(メタデータ) (2020-04-27T19:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。