論文の概要: QuALITY: Question Answering with Long Input Texts, Yes!
- arxiv url: http://arxiv.org/abs/2112.08608v1
- Date: Thu, 16 Dec 2021 04:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 16:00:47.873453
- Title: QuALITY: Question Answering with Long Input Texts, Yes!
- Title(参考訳): 質: 長い入力テキストで質問に答える。
- Authors: Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia,
Jason Phang, Angelica Chen, Vishakh Padmakumar, Johnny Ma, Jana Thompson, He
He, Samuel R. Bowman
- Abstract要約: 平均トークン長が約5,000である英語のコンテキストパスを持つデータセットQuALITYを紹介した。
パスに関する以前の作業とは異なり、私たちの質問は、パス全体を読んだコントリビュータによって書かれ、検証されます。
厳密な時間制約の下で作業しているアノテータによって答えられる質問はたった半数だ。
- 参考スコア(独自算出の注目度): 27.700792723226524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enable building and testing models on long-document comprehension, we
introduce QuALITY, a multiple-choice QA dataset with context passages in
English that have an average length of about 5,000 tokens, much longer than
typical current models can process. Unlike in prior work with passages, our
questions are written and validated by contributors who have read the entire
passage, rather than relying on summaries or excerpts. In addition, only half
of the questions are answerable by annotators working under tight time
constraints, indicating that skimming and simple search are not enough to
consistently perform well. Current models perform poorly on this task (55.4%)
and significantly lag behind human performance (93.5%).
- Abstract(参考訳): 長期文書理解に基づくモデルの構築とテストを可能にするために、品質、英語のコンテキストパセーションを備えたマルチチョースqaデータセット、平均約5,000トークンを持ち、通常のモデルよりもずっと長い品質を導入します。
文章を使った以前の作業とは異なり、私たちの質問は要約や抜粋に頼るのではなく、文章全体を読むコントリビュータによって書かれ、検証されます。
さらに、厳密な時間制約の下で作業しているアノテータによって答えられる質問は半数に過ぎず、スキミングと単純な検索が一貫して機能するには不十分であることを示している。
現在のモデルは、このタスク(55.4%)では性能が悪く、人間のパフォーマンス(93.5%)よりもかなり遅れている。
関連論文リスト
- BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack [4.3482088816575155]
BABILongベンチマークを導入し、長い文書に散在する事実を推論する言語モデルの能力をテストする。
BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。
評価の結果,LLM は文脈の 10-20% しか有効に利用できず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。
論文 参考訳(メタデータ) (2024-06-14T16:00:29Z) - Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。
我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文 参考訳(メタデータ) (2024-05-31T20:15:10Z) - NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。
本稿では,ノベルQAの設計と構築について述べる。
NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文 参考訳(メタデータ) (2024-03-18T17:32:32Z) - Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。
本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。
LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文 参考訳(メタデータ) (2023-12-18T13:40:16Z) - Harnessing the Power of Prompt-based Techniques for Generating
School-Level Questions using Large Language Models [0.5459032912385802]
本稿では,プロンプトベースの手法を用いて記述的および推論的質問を生成する手法を提案する。
我々は,NCERT教科書のリッチコンテンツを活用することで,学校レベルの課題を対象とした新しいQGデータセットEduProbeをキュレートする。
変換器をベースとした大規模言語モデルを用いて,いくつかのプロンプトベースのQG手法について検討する。
論文 参考訳(メタデータ) (2023-12-02T05:13:28Z) - BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。
マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。
5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文 参考訳(メタデータ) (2023-09-23T11:36:15Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z) - NarrativeXL: A Large-scale Dataset For Long-Term Memory Models [0.0]
GPT 3.5を用いて,プロジェクト・グーテンベルクから1500冊の手書き小説を要約した。
990,595の質問で、我々のデータセットは最も近い選択肢よりも桁違いに大きい。
ほとんどの質問は'保持要求'を知っていて、それらに答えるためにメモリの長期的要求がどれくらい必要かを示しています。
論文 参考訳(メタデータ) (2023-05-23T09:55:32Z) - IIRC: A Dataset of Incomplete Information Reading Comprehension
Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。
質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。
我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文 参考訳(メタデータ) (2020-11-13T20:59:21Z) - TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions [91.85730323228833]
TORQUEは3.2kニュース上に構築された新しい英語読解ベンチマークで、時間的関係を問う質問を21kで生成する。
以上の結果から,RoBERTa-largeスニペットはTORQUEの試験セットで51%の精度で一致し,約30%が人体性能に遅れていることがわかった。
論文 参考訳(メタデータ) (2020-05-01T06:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。