論文の概要: LooGLE v2: Are LLMs Ready for Real World Long Dependency Challenges?
- arxiv url: http://arxiv.org/abs/2510.22548v1
- Date: Sun, 26 Oct 2025 06:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.241663
- Title: LooGLE v2: Are LLMs Ready for Real World Long Dependency Challenges?
- Title(参考訳): LooGLE v2: LLMは現実の長期依存問題に準備ができているか?
- Authors: Ziyuan He, Yuxuan Wang, Jiaqi Li, Kexin Liang, Muhan Zhang,
- Abstract要約: LooGLE v2は、大規模言語モデルの現実世界のアプリケーションやシナリオにおける長期コンテキスト能力を評価するために設計された、新しいベンチマークである。
私たちのベンチマークは、16kから2Mのトークンから、法律、ファイナンス、ゲーム、コードの領域まで、自動的に収集された現実世界の長文で構成されています。
評価結果から,ベストパフォーマンスモデルでさえ,ベンチマークの総合スコアは59.2%に過ぎなかった。
- 参考スコア(独自算出の注目度): 35.43518917055024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are equipped with increasingly extended context windows recently, yet their long context understanding capabilities over long dependency tasks remain fundamentally limited and underexplored. This gap is especially significant in many real-world long-context applications that were rarely benchmarked. In this paper, we introduce LooGLE v2, a novel benchmark designed to evaluate LLMs' long context ability in real-world applications and scenarios. Our benchmark consists of automatically collected real-world long texts, ranging from 16k to 2M tokens, encompassing domains in law, finance, game and code. Accordingly, we delicately design 10 types of domain-specific long-dependency tasks and generate 1,934 QA instances with various diversity and complexity in a scalable data curation pipeline for further practical needs. We conduct a comprehensive assessment of 6 locally deployed and 4 API-based LLMs. The evaluation results show that even the best-performing model achieves only a 59.2% overall score on our benchmark. Despite the extensive context windows, popular LLMs are only capable of understanding a much shorter length of context than they claim to be, revealing significant limitations in their ability to handle real-world tasks with long dependencies and highlighting substantial room for model improvement in practical long-context understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近ますます拡張されたコンテキストウインドウを備えているが、長い依存タスクよりも長いコンテキスト理解能力は、基本的に制限され、未探索のままである。
このギャップは、ベンチマークされることが滅多にない多くの現実世界の長いコンテキストアプリケーションにおいて特に重要である。
本稿では,現実のアプリケーションやシナリオにおけるLLMの長期的コンテキスト能力を評価するために設計された,新しいベンチマークであるLooGLE v2を紹介する。
私たちのベンチマークは、16kから2Mのトークンから、法律、ファイナンス、ゲーム、コードの領域まで、自動的に収集された現実世界の長文で構成されています。
したがって、我々は10種類のドメイン固有の長距離タスクを微妙に設計し、さらに実用的なニーズのためにスケーラブルなデータキュレーションパイプラインにおいて、様々な多様性と複雑さを持つ1,934のQAインスタンスを生成します。
ローカルにデプロイされた6つのLLMとAPIベースのLLMを総合的に評価する。
評価結果から,ベストパフォーマンスモデルでさえ,ベンチマークの総合スコアは59.2%に過ぎなかった。
広範にわたるコンテキストウィンドウにもかかわらず、一般的なLLMは、彼らが主張するよりもはるかに短いコンテキストの理解しかできない。
関連論文リスト
- NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - LongIns: A Challenging Long-context Instruction-based Exam for LLMs [20.8470269815788]
大規模言語モデル(LLM)の長いコンテキスト能力は近年ホットな話題となっている。
本稿ではLongInsベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-25T14:31:26Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - LooGLE: Can Long-Context Language Models Understand Long Contexts? [46.143956498529796]
LooGLEは、大規模言語モデルの長いコンテキスト理解のためのベンチマークである。
2022年以降に比較的新しい文書が登場し、1ドキュメントあたり24,000以上のトークンと、さまざまな領域にまたがる6,000の新たな質問が提供されている。
LooGLEにおける8つの最先端LCMの評価から,重要な所見が得られた。
論文 参考訳(メタデータ) (2023-11-08T01:45:37Z) - LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding [58.20031627237889]
LongBenchは、コンテキスト理解のための最初のバイリンガルでマルチタスクのベンチマークである。
英語と中国語の6つのタスクカテゴリにまたがる21のデータセットで構成され、平均的な長さは6,711語(英語)と13,386文字(中国語)である。
論文 参考訳(メタデータ) (2023-08-28T11:53:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。