Fugu-MT 論文翻訳(概要): Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

論文の概要: Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA

arxiv url: http://arxiv.org/abs/2406.17419v2
Date: Thu, 03 Oct 2024 06:03:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 07:38:53.773153
Title: Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA
Title（参考訳）: 文書の背後には残らない - 拡張マルチドキュメントQAによる長期 LLM のベンチマーク
Authors: Minzheng Wang, Longze Chen, Cheng Fu, Shengyi Liao, Xinghua Zhang, Bingli Wu, Haiyang Yu, Nan Xu, Lei Zhang, Run Luo, Yunshui Li, Min Yang, Fei Huang, Yongbin Li,
Abstract要約: 長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。 Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
参考スコア（独自算出の注目度）: 71.04146366608904
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Long-context modeling capabilities have garnered widespread attention, leading to the emergence of Large Language Models (LLMs) with ultra-context windows. Meanwhile, benchmarks for evaluating long-context LLMs are gradually catching up. However, existing benchmarks employ irrelevant noise texts to artificially extend the length of test cases, diverging from the real-world scenarios of long-context applications. To bridge this gap, we propose a novel long-context benchmark, Loong, aligning with realistic scenarios through extended multi-document question answering (QA). Unlike typical document QA, in Loong's test cases, each document is relevant to the final answer, ignoring any document will lead to the failure of the answer. Furthermore, Loong introduces four types of tasks with a range of context lengths: Spotlight Locating, Comparison, Clustering, and Chain of Reasoning, to facilitate a more realistic and comprehensive evaluation of long-context understanding. Extensive experiments indicate that existing long-context language models still exhibit considerable potential for enhancement. Retrieval augmented generation (RAG) achieves poor performance, demonstrating that Loong can reliably assess the model's long-context modeling capabilities.
Abstract（参考訳）: 長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。一方、長文LLMの評価のためのベンチマークは徐々に追いつきつつある。しかし、既存のベンチマークでは、テストケースの長さを人工的に拡張するために無関係なノイズテキストを使用しており、ロングコンテキストアプリケーションの現実のシナリオから逸脱している。このギャップを埋めるために,拡張多文書質問応答(QA)を通じて現実的なシナリオに整合する,新しい長文ベンチマークであるLoongを提案する。通常の文書 QA とは異なり、Loong のテストケースでは、各文書は最終回答に関連しており、どんな文書も無視すると答えの失敗につながる。さらに、Long氏は、より現実的で包括的なロングコンテキスト理解の評価を促進するために、スポットライトの配置、比較、クラスタリング、および推論の連鎖の4種類のタスクを導入している。大規模な実験は、既存の長文言語モデルが拡張の可能性を秘めていることを示している。 Retrieval augmented generation(RAG)は低パフォーマンスを実現し、Loongがモデルの長期コンテキストモデリング能力を確実に評価できることを実証する。

関連論文リスト

Ref-Long: Benchmarking the Long-context Referencing Capability of Long-context Language Models [36.69535336525585]
長文言語モデル(LCLM)は、長文理解タスクにおいて印象的な機能を示した。長文参照は、LCLMが関心のある項目を長文データの特定の部分に属性付けする必要がある重要なタスクである。本稿では,LCLMの長文参照能力を評価するための新しいベンチマークであるRef-Longを提案する。
論文参考訳（メタデータ） (2025-07-13T06:17:53Z)
100-LongBench: Are de facto Long-Context Benchmarks Literally Evaluating Long-Context Ability? [28.694112253150983]
リアルタイムベースの長期コンテキスト評価ベンチマークには2つの大きな欠点がある。 LongBenchのようなベンチマークは、しばしばモデルのベースライン能力とロングコンテキストのパフォーマンスを分離するための適切なメトリクスを提供しない。長さ制御可能な長文ベンチマークと,ベースライン知識を真の長文能力から切り離す新しいメトリクスを導入する。
論文参考訳（メタデータ） (2025-05-25T19:58:31Z)
Hierarchical Document Refinement for Long-context Retrieval-augmented Generation [28.421675216147374]
LongRefinerは、長いドキュメントの固有の構造特性を利用する効率的なプラグアンドプレイ精製機である。 LongRefinerは、最高のベースラインに比べて計算コストとレイテンシを10倍少なくしながら、さまざまなシナリオで競合的なパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-05-15T15:34:15Z)
Estimating Optimal Context Length for Hybrid Retrieval-augmented Multi-document Summarization [5.856976164399712]
本稿では,検索拡張システムと,最近の言語モデルでサポートされている長文ウィンドウを組み合わせたハイブリッド手法を提案する。マルチドキュメント要約タスクの結果は,モデルクラスとサイズにまたがって,本手法の有効性を示す。
論文参考訳（メタデータ） (2025-04-17T14:24:51Z)
WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale [86.25450054683172]
WildLongは、実際のユーザクエリからメタ情報を取り出して、スケーラブルなデータを生成する。クロスドキュメント比較やアグリゲーションといったマルチドキュメント推論をサポートする。ベンチマーク全体で、既存のオープンソースの長期コンテキスト最適化モデルを上回っている。
論文参考訳（メタデータ） (2025-02-23T18:59:09Z)
Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文参考訳（メタデータ） (2025-02-21T17:02:40Z)
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks? [36.83397306207386]
我々は17大言語モデル(LLM)の能力を評価する。興味深いことに、多くのモデルは驚くほどスレッドセーフで、パフォーマンスに大きな損失を被ることなく、同時に複数のスレッドをフォローできる。有効なコンテキスト制限はサポート対象のコンテキスト長よりも大幅に短く,コンテキストウィンドウが大きくなるにつれて精度が低下することがわかった。
論文参考訳（メタデータ） (2024-11-07T18:59:27Z)
What is Wrong with Perplexity for Long-context Language Modeling? [71.34933096461124]
長いコンテキスト入力は、会話の拡張、文書の要約、多数のショットインコンテキスト学習といったタスクにおいて、大きな言語モデル(LLM)にとって不可欠である。パープレキシティ(PPL)は、長期コンテキスト能力の評価には信頼性が低いことが証明されている。長短コンテキストコントラスト法を用いて鍵トークンを識別する手法であるbfLongPPLを提案する。
論文参考訳（メタデータ） (2024-10-31T09:39:28Z)
LongGenBench: Long-context Generation Benchmark [20.531098579781162]
ロングコンテキスト生成(Long-context generation)とは、コヒーレントで文脈的に正確なテキストを生成する言語モデルの能力である。我々は、カスタマイズされた生成コンテキスト長の柔軟な構成を可能にする合成ベンチマークであるLongGenBenchを紹介した。 LongGenBenchは、従来のベンチマークを超えて、質問のフォーマットを再設計し、一貫性のある1つの長文の回答を必要とする。
論文参考訳（メタデータ） (2024-10-05T15:33:25Z)
DetectiveQA: Evaluating Long-Context Reasoning on Detective Novels [89.51834016940153]
本稿では,100K以上の平均コンテキスト長を持つナラティブ推論ベンチマークであるTectiveQAを紹介する。探偵小説をデータソースとして使用し、様々な理由付け要素を自然に持っている。私たちは中国語で600の質問を手動で注釈付けし、文脈情報と質問の英語版も提供しました。
論文参考訳（メタデータ） (2024-09-04T06:28:22Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
XL$^2$Bench: A Benchmark for Extremely Long Context Understanding with Long-range Dependencies [45.31042312867939]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示しているが、その小さなコンテキストウィンドウサイズによって制約されている。最大200Kの入力トークンに対応するために、コンテキストウィンドウを拡張するための様々な取り組みが提案されている。 XL$2$Bench という,長距離依存によるコンテキスト理解のためのベンチマークを導入する。
論文参考訳（メタデータ） (2024-04-08T12:29:07Z)
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens [63.7488938083696]
NovelQAは拡張テキストによる大規模言語モデルの能力をテストするために設計されたベンチマークである。本稿では,ノベルQAの設計と構築について述べる。 NovelQAにおけるLong-context LLMの評価により,モデルの性能に関する重要な知見が得られた。
論文参考訳（メタデータ） (2024-03-18T17:32:32Z)
LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。 2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。 LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文参考訳（メタデータ） (2023-11-08T01:45:37Z)
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models [141.21603469555225]
大規模言語モデル(LLM)は、通常の長さのNLPタスクよりも劇的な熟練を実現している。マルチタスク長コンテキストベンチマークであるBAMBOOを提案する。 5つの異なる長いテキスト理解タスクから10のデータセットで構成されている。
論文参考訳（メタデータ） (2023-09-23T11:36:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。