論文の概要: STARC: Structured Annotations for Reading Comprehension
- arxiv url: http://arxiv.org/abs/2004.14797v1
- Date: Thu, 30 Apr 2020 14:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:24:57.257503
- Title: STARC: Structured Annotations for Reading Comprehension
- Title(参考訳): STARC: 可読性のための構造化アノテーション
- Authors: Yevgeni Berzak, Jonathan Malmaud, Roger Levy
- Abstract要約: 複数の選択肢を問う読み理解を評価するための新しいアノテーションフレームワークSTARCを提案する。
このフレームワークはOneStopQAで実装されており、英語の読み理解の評価と分析のための新しい高品質データセットである。
- 参考スコア(独自算出の注目度): 23.153841344989143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present STARC (Structured Annotations for Reading Comprehension), a new
annotation framework for assessing reading comprehension with multiple choice
questions. Our framework introduces a principled structure for the answer
choices and ties them to textual span annotations. The framework is implemented
in OneStopQA, a new high-quality dataset for evaluation and analysis of reading
comprehension in English. We use this dataset to demonstrate that STARC can be
leveraged for a key new application for the development of SAT-like reading
comprehension materials: automatic annotation quality probing via span ablation
experiments. We further show that it enables in-depth analyses and comparisons
between machine and human reading comprehension behavior, including error
distributions and guessing ability. Our experiments also reveal that the
standard multiple choice dataset in NLP, RACE, is limited in its ability to
measure reading comprehension. 47% of its questions can be guessed by machines
without accessing the passage, and 18% are unanimously judged by humans as not
having a unique correct answer. OneStopQA provides an alternative test set for
reading comprehension which alleviates these shortcomings and has a
substantially higher human ceiling performance.
- Abstract(参考訳): 我々は,複数質問による読解を評価するための新しいアノテーションフレームワーク starc (structured annotations for reading comprehension) を提案する。
我々のフレームワークは、回答の選択のための原則構造を導入し、それらをテキストスパンアノテーションに結びつける。
このフレームワークはOneStopQAで実装されており、英語の読み理解の評価と分析のための新しい高品質データセットである。
このデータセットを用いて,satライクな読解教材の開発において,starcが重要な新しいアプリケーションとして活用できることを実証する。
さらに,誤り分布や推測能力など,機械と人間の読み理解行動の詳細な解析と比較が可能であることを示す。
また,NLPにおける標準多重選択データセットである RACE は,読解理解能力に制限があることを明らかにした。
質問の47%は、通路にアクセスすることなく機械によって推測され、18%は人間によって独特な正しい答えがないと全会一致で判断される。
OneStopQAは、これらの欠点を緩和し、人間の天井性能を大幅に向上させる読解のための代替テストセットを提供する。
関連論文リスト
- Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - LC-Score: Reference-less estimation of Text Comprehension Difficulty [0.0]
我々は、参照なしのフランス語テキストに対して、テキスト理解度を訓練するための簡単なアプローチであるtextscLC-Scoreを提示する。
我々の目的は,テキストがtextitLangage Clair (LC, textitClear Language) ガイドラインに適合する範囲を定量的に把握することである。
i) 統計モデルの学習に使用される言語的動機付け指標を使用すること,(ii) 事前学習された言語モデルを利用したテキストから直接ニューラルラーニングを行うこと,の2つのアプローチを探索する。
論文 参考訳(メタデータ) (2023-10-04T11:49:37Z) - ChatPRCS: A Personalized Support System for English Reading
Comprehension based on ChatGPT [3.847982502219679]
本稿では,ChatPRCSと呼ばれる読解支援システムを提案する。
ChatPRCSは、理解能力予測、質問生成、自動評価などの手法を採用している。
論文 参考訳(メタデータ) (2023-09-22T11:46:44Z) - Evaluating Factual Consistency of Texts with Semantic Role Labeling [3.1776833268555134]
本稿では,テキスト要約を念頭に設計した参照不要評価指標SRLScoreを紹介する。
最終事実度スコアは、調整可能なスコアリング機構により算出される。
英語の要約データセットにおける人間の判断との相関は、SRLScoreが最先端の手法と競合していることを示している。
論文 参考訳(メタデータ) (2023-05-22T17:59:42Z) - SkillQG: Learning to Generate Question for Reading Comprehension
Assessment [54.48031346496593]
本稿では,機械読解モデルの評価と改善を目的とした,制御可能な理解型を用いた質問生成フレームワークを提案する。
まず、階層的なスキルベースのスキーマに基づいて理解型の質問をフレーム化し、その後、スキル条件付き質問生成器として$textttSkillQG$を定式化する。
経験的な結果から、$textttSkillQG$は、品質、妥当性、スキル制御性という点でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-08T14:40:48Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - MOCHA: A Dataset for Training and Evaluating Generative Reading
Comprehension Metrics [55.85042753772513]
そこで本研究では,生成的読解の指標であるModeling Correctness with Humanをトレーニングし,評価するためのベンチマークを提案する。
S
我々は,MOCHAを用いて,人間の判断スコアを模倣する学習評価尺度LERCを訓練する。
最小のペアで評価すると、LERCは80%の精度でベースラインを14から26の絶対パーセンテージポイントで上回り、改善の余地は大きい。
論文 参考訳(メタデータ) (2020-10-07T20:22:54Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。