論文の概要: QuALITY: Question Answering with Long Input Texts, Yes!
- arxiv url: http://arxiv.org/abs/2112.08608v1
- Date: Thu, 16 Dec 2021 04:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 16:00:47.873453
- Title: QuALITY: Question Answering with Long Input Texts, Yes!
- Title(参考訳): 質: 長い入力テキストで質問に答える。
- Authors: Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia,
Jason Phang, Angelica Chen, Vishakh Padmakumar, Johnny Ma, Jana Thompson, He
He, Samuel R. Bowman
- Abstract要約: 平均トークン長が約5,000である英語のコンテキストパスを持つデータセットQuALITYを紹介した。
パスに関する以前の作業とは異なり、私たちの質問は、パス全体を読んだコントリビュータによって書かれ、検証されます。
厳密な時間制約の下で作業しているアノテータによって答えられる質問はたった半数だ。
- 参考スコア(独自算出の注目度): 27.700792723226524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enable building and testing models on long-document comprehension, we
introduce QuALITY, a multiple-choice QA dataset with context passages in
English that have an average length of about 5,000 tokens, much longer than
typical current models can process. Unlike in prior work with passages, our
questions are written and validated by contributors who have read the entire
passage, rather than relying on summaries or excerpts. In addition, only half
of the questions are answerable by annotators working under tight time
constraints, indicating that skimming and simple search are not enough to
consistently perform well. Current models perform poorly on this task (55.4%)
and significantly lag behind human performance (93.5%).
- Abstract(参考訳): 長期文書理解に基づくモデルの構築とテストを可能にするために、品質、英語のコンテキストパセーションを備えたマルチチョースqaデータセット、平均約5,000トークンを持ち、通常のモデルよりもずっと長い品質を導入します。
文章を使った以前の作業とは異なり、私たちの質問は要約や抜粋に頼るのではなく、文章全体を読むコントリビュータによって書かれ、検証されます。
さらに、厳密な時間制約の下で作業しているアノテータによって答えられる質問は半数に過ぎず、スキミングと単純な検索が一貫して機能するには不十分であることを示している。
現在のモデルは、このタスク(55.4%)では性能が悪く、人間のパフォーマンス(93.5%)よりもかなり遅れている。
関連論文リスト
- Harnessing the Power of Prompt-based Techniques for Generating
School-Level Questions using Large Language Models [0.5459032912385802]
本稿では,プロンプトベースの手法を用いて記述的および推論的質問を生成する手法を提案する。
我々は,NCERT教科書のリッチコンテンツを活用することで,学校レベルの課題を対象とした新しいQGデータセットEduProbeをキュレートする。
変換器をベースとした大規模言語モデルを用いて,いくつかのプロンプトベースのQG手法について検討する。
論文 参考訳(メタデータ) (2023-12-02T05:13:28Z) - Answer Candidate Type Selection: Text-to-Text Language Model for Closed
Book Question Answering Meets Knowledge Graphs [62.20354845651949]
本稿では,この問題を解決するために,事前学習されたテキスト間QAシステム上で機能する新しいアプローチを提案する。
提案手法は,Wikidataの"instance_of"プロパティの型に基づいて,生成した候補のフィルタリングと再ランク付けを行う。
論文 参考訳(メタデータ) (2023-10-10T20:49:43Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling
Capacities of Large Language Models [151.503051479077]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context
Understanding [59.623007535233]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - NarrativeXL: A Large-scale Dataset For Long-Term Memory Models [0.0]
GPT 3.5を用いて,プロジェクト・グーテンベルクから1500冊の手書き小説を要約した。
990,595の質問で、我々のデータセットは最も近い選択肢よりも桁違いに大きい。
ほとんどの質問は'保持要求'を知っていて、それらに答えるためにメモリの長期的要求がどれくらい必要かを示しています。
論文 参考訳(メタデータ) (2023-05-23T09:55:32Z) - Possible Stories: Evaluating Situated Commonsense Reasoning under
Multiple Possible Scenarios [8.553766123004682]
本研究は,複数の質問に対して,候補解と同じ結末の集合を問うことで,この課題を補足するものである。
私たちのデータセットは、英語の1.3Kストーリーテキストよりも4.5K以上の質問で構成されています。
論文 参考訳(メタデータ) (2022-09-16T07:38:51Z) - NLP-IIS@UT at SemEval-2021 Task 4: Machine Reading Comprehension using
the Long Document Transformer [8.645929825516816]
本稿では,SemEval-2021の4番目の課題である"Reading of Abstract Meaning"に関する技術的報告を紹介する。
このタスクでは、コンテキストが与えられた質問に基づいて正しい答えを予測します。
この問題に対処するために、Longformerモデルを使い、シーケンスをよりよく処理しました。
論文 参考訳(メタデータ) (2021-05-08T20:48:32Z) - MultiModalQA: Complex Question Answering over Text, Tables and Images [52.25399438133274]
テキスト,テーブル,画像に対する共同推論を必要とするデータセットであるMultiModalQAを提案する。
大規模で複雑なマルチモーダル質問を生成するための新しいフレームワークを使用してMMQAを作成します。
次に、単一のモダリティから回答できる質問を受け取り、それらを組み合わせてクロスモーダルな質問を生成する形式言語を定義します。
論文 参考訳(メタデータ) (2021-04-13T09:14:28Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions [91.85730323228833]
TORQUEは3.2kニュース上に構築された新しい英語読解ベンチマークで、時間的関係を問う質問を21kで生成する。
以上の結果から,RoBERTa-largeスニペットはTORQUEの試験セットで51%の精度で一致し,約30%が人体性能に遅れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T06:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。