Fugu-MT 論文翻訳(概要): QuALITY: Question Answering with Long Input Texts, Yes!

論文の概要: QuALITY: Question Answering with Long Input Texts, Yes!

arxiv url: http://arxiv.org/abs/2112.08608v1
Date: Thu, 16 Dec 2021 04:14:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-17 16:00:47.873453
Title: QuALITY: Question Answering with Long Input Texts, Yes!
Title（参考訳）: 質: 長い入力テキストで質問に答える。
Authors: Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia, Jason Phang, Angelica Chen, Vishakh Padmakumar, Johnny Ma, Jana Thompson, He He, Samuel R. Bowman
Abstract要約: 平均トークン長が約5,000である英語のコンテキストパスを持つデータセットQuALITYを紹介した。パスに関する以前の作業とは異なり、私たちの質問は、パス全体を読んだコントリビュータによって書かれ、検証されます。厳密な時間制約の下で作業しているアノテータによって答えられる質問はたった半数だ。
参考スコア（独自算出の注目度）: 27.700792723226524
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To enable building and testing models on long-document comprehension, we introduce QuALITY, a multiple-choice QA dataset with context passages in English that have an average length of about 5,000 tokens, much longer than typical current models can process. Unlike in prior work with passages, our questions are written and validated by contributors who have read the entire passage, rather than relying on summaries or excerpts. In addition, only half of the questions are answerable by annotators working under tight time constraints, indicating that skimming and simple search are not enough to consistently perform well. Current models perform poorly on this task (55.4%) and significantly lag behind human performance (93.5%).
Abstract（参考訳）: 長期文書理解に基づくモデルの構築とテストを可能にするために、品質、英語のコンテキストパセーションを備えたマルチチョースqaデータセット、平均約5,000トークンを持ち、通常のモデルよりもずっと長い品質を導入します。文章を使った以前の作業とは異なり、私たちの質問は要約や抜粋に頼るのではなく、文章全体を読むコントリビュータによって書かれ、検証されます。さらに、厳密な時間制約の下で作業しているアノテータによって答えられる質問は半数に過ぎず、スキミングと単純な検索が一貫して機能するには不十分であることを示している。現在のモデルは、このタスク(55.4%)では性能が悪く、人間のパフォーマンス(93.5%)よりもかなり遅れている。

関連論文リスト

Multi-Agent Interactive Question Generation Framework for Long Document Understanding [5.059854277690664]
本稿では,コンテキストの長い質問を効率よく生成する,完全に自動化されたマルチエージェント対話型フレームワークを提案する。提案手法は,英語とアラビア語の広範な文書に対して,高品質な単ページ,複数ページの質問を効率よく生成する。
論文参考訳（メタデータ） (2025-07-27T06:44:53Z)
Too Long, Didn't Model: Decomposing LLM Long-Context Understanding With Novels [3.537369004801589]
Too Long, Didn't Modelベンチマークをリリースしました。プロットサマリー、ストーリーワールド構成、経過したストーリータイムを報告するモデルの能力をテストする。テストされた7つのフロンティアLSMのうち、64kトークン以上の安定な理解は得られていない。
論文参考訳（メタデータ） (2025-05-20T21:21:09Z)
NoLiMa: Long-Context Evaluation Beyond Literal Matching [100.00398424275501]
NoLiMaは、NIAHテストを拡張したベンチマークである。干し草の山の中に針を見つけるためには、潜伏関係を推測するモデルが必要である。我々は、少なくとも128Kトークンのコンテキストをサポートすると主張する12のポピュラーな大言語モデルを評価する。
論文参考訳（メタデータ） (2025-02-07T18:49:46Z)
LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-context Multitasks [74.96182906307654]
本稿では,LongBench v2を提案する。LongBench v2は,LLMが長期コンテキスト問題に対処する能力を評価するためのベンチマークである。 LongBench v2は、503の挑戦的な複数選択の質問で構成され、コンテキストは8kから200M語で、6つの主要なタスクカテゴリにまたがる。我々は、品質と難易度を維持するために、自動レビュープロセスと手動レビュープロセスの両方を使用し、その結果15分間の制約の下で、人間の専門家は53.7%の精度しか達成できなかった。
論文参考訳（メタデータ） (2024-12-19T18:59:17Z)
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack [4.3482088816575155]
BABILongベンチマークを導入し、長い文書に散在する事実を推論する言語モデルの能力をテストする。 BABILongには、ファクトチェイン、単純な誘導、推論、カウント、リスト/セットの処理を含む、20の推論タスクの多様なセットが含まれている。評価の結果,LLM は文脈の 10-20% しか有効に利用できず,その性能が急激に低下し,推論の複雑さが増大していることがわかった。
論文参考訳（メタデータ） (2024-06-14T16:00:29Z)
Long-Span Question-Answering: Automatic Question Generation and QA-System Ranking via Side-by-Side Evaluation [65.16137964758612]
大規模言語モデルにおける長文文の活用について検討し,本書全体の読解データを作成する。我々の目的は、長いテキストの詳細な理解を必要とする問題を分析し、理解し、推論するLLMの能力をテストすることである。
論文参考訳（メタデータ） (2024-05-31T20:15:10Z)
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。本稿では,ノベルQAの設計と構築について述べる。 NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文参考訳（メタデータ） (2024-03-18T17:32:32Z)
Training With "Paraphrasing the Original Text" Improves Long-Context Performance [19.48556587305737]
大きな言語モデル(LLM)は進化を続けており、長いコンテキスト入力を扱うように設計されている。本研究では,LLMの学習能力を高めることを目的とした長文タスクのための学習データ設計手法を提案する。 LlamaおよびQwenのモデルを用いたLongBenchおよびNaturalQuestions Multi-document-QAデータセットの実験により,平均スコアが最大8.48%,4.48%向上した。
論文参考訳（メタデータ） (2023-12-18T13:40:16Z)
Harnessing the Power of Prompt-based Techniques for Generating School-Level Questions using Large Language Models [0.5459032912385802]
本稿では,プロンプトベースの手法を用いて記述的および推論的質問を生成する手法を提案する。我々は,NCERT教科書のリッチコンテンツを活用することで,学校レベルの課題を対象とした新しいQGデータセットEduProbeをキュレートする。変換器をベースとした大規模言語モデルを用いて,いくつかのプロンプトベースのQG手法について検討する。
論文参考訳（メタデータ） (2023-12-02T05:13:28Z)
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。 5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文参考訳（メタデータ） (2023-09-23T11:36:15Z)
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文参考訳（メタデータ） (2023-08-28T11:53:40Z)
NarrativeXL: A Large-scale Dataset For Long-Term Memory Models [0.0]
GPT 3.5を用いて,プロジェクト・グーテンベルクから1500冊の手書き小説を要約した。 990,595の質問で、我々のデータセットは最も近い選択肢よりも桁違いに大きい。ほとんどの質問は'保持要求'を知っていて、それらに答えるためにメモリの長期的要求がどれくらい必要かを示しています。
論文参考訳（メタデータ） (2023-05-23T09:55:32Z)
IIRC: A Dataset of Incomplete Information Reading Comprehension Questions [53.3193258414806]
我々は、英語Wikipediaの段落に13K以上の質問があるIIRCというデータセットを提示する。質問は、リンクされた文書にアクセスできなかった群衆労働者によって書かれた。我々は、このデータセットのベースラインモデルを構築するために、様々な読解データセットに関する最近のモデリング作業に従う。
論文参考訳（メタデータ） (2020-11-13T20:59:21Z)
TORQUE: A Reading Comprehension Dataset of Temporal Ordering Questions [91.85730323228833]
TORQUEは3.2kニュース上に構築された新しい英語読解ベンチマークで、時間的関係を問う質問を21kで生成する。以上の結果から,RoBERTa-largeスニペットはTORQUEの試験セットで51%の精度で一致し,約30%が人体性能に遅れていることがわかった。
論文参考訳（メタデータ） (2020-05-01T06:29:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。