論文の概要: Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities
- arxiv url: http://arxiv.org/abs/2511.02817v1
- Date: Tue, 04 Nov 2025 18:42:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.151849
- Title: Oolong: Evaluating Long Context Reasoning and Aggregation Capabilities
- Title(参考訳): Oolong: ロングコンテキスト推論とアグリゲーション能力の評価
- Authors: Amanda Bertsch, Adithya Pratapa, Teruko Mitamura, Graham Neubig, Matthew R. Gormley,
- Abstract要約: Oolongは、原子レベルで個々のテキストの塊を分析する必要がある長期コンテキスト推論タスクのベンチマークである。
Oolongでは、GPT-5、Claude-Sonnet-4、Gemini-2.5-Proといったフロンティアモデルでも、どちらも128Kで50%未満の精度を実現している。
- 参考スコア(独自算出の注目度): 48.54193244645589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As model context lengths continue to grow, concerns about whether models effectively use the full context length have persisted. While several carefully designed long-context evaluations have recently been released, these evaluations tend to rely on retrieval from one or more sections of the context, which allows nearly all of the context tokens to be disregarded as noise. This represents only one type of task that might be performed with long context. We introduce Oolong, a benchmark of long-context reasoning tasks that require analyzing individual chunks of text on an atomic level, and then aggregating these analyses to answer distributional questions. Oolong is separated into two task sets: Oolong-synth, a set of naturalistic synthetic tasks, where we can easily ablate components of the reasoning problem; and Oolong-real, a downstream setting which requires reasoning over real-world conversational data. Oolong requires models to reason over large quantities of examples, to perform both classification and counting in-context, and to reason over temporal and user relations. Even frontier models struggle on Oolong, with GPT-5, Claude-Sonnet-4, and Gemini-2.5-Pro all achieving less than 50% accuracy on both splits at 128K. We release the data and evaluation harness for Oolong to enable further development of models that can reason over large quantities of text.
- Abstract(参考訳): モデルコンテキスト長が増加し続けるにつれて、モデルがフルコンテキスト長を効果的に利用するかどうかに関する懸念が持続している。
最近、いくつかの慎重に設計された長期コンテキスト評価がリリースされたが、これらの評価はコンテキストの1つ以上のセクションからの検索に依存する傾向にあり、ほとんどのコンテキストトークンはノイズとして無視される。
これは、長いコンテキストで実行される可能性のあるタスクの1つのタイプを表す。
Oolongは、原子レベルで個々のテキストの塊を解析し、それらの分析を集約して、分散的な質問に答える、長いコンテキスト推論タスクのベンチマークである。
Oolong-synthは自然主義的な合成タスクの集合で、推論問題のコンポーネントを簡単にアブレーションできる。
Oolongは、大量のサンプルを推論し、分類と文脈内カウントの両方を実行し、時間的およびユーザ関係を推論するためにモデルを必要とする。
Oolongでは、GPT-5、Claude-Sonnet-4、Gemini-2.5-Proといったフロンティアモデルでも、どちらも128Kで50%未満の精度を実現している。
我々はOolongのデータと評価ハーネスを公開し、大量のテキストを推論できるモデルの開発をさらに進める。
関連論文リスト
- A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Is It Really Long Context if All You Need Is Retrieval? Towards Genuinely Difficult Long Context NLP [32.19010113355365]
異なるタスクをコンテキスト長で膨らませることは、生産的ではないと我々は主張する。
我々は、長い文脈でそれらがより困難になる特性に基づいて、長い文脈の分類を解き放つことを提案する。
必要な情報が非常に長く、入力内で非常に拡散している、最も困難で興味深い設定は、非常に過度に探索されている、と結論付けている。
論文 参考訳(メタデータ) (2024-06-29T11:09:47Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。