論文の概要: Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning
- arxiv url: http://arxiv.org/abs/2505.17315v1
- Date: Thu, 22 May 2025 22:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.710681
- Title: Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning
- Title(参考訳): より長いコンテキスト、より深い思考: 推論における長期的能力の役割を明らかにする
- Authors: Wang Yang, Zirui Liu, Hongye Jin, Qingyu Yin, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: そこで本研究では,SFT(Supervised Fine-Tuning)に先立って,モデル長文化能力の向上が推論性能の向上に繋がるかどうかを検討する。
その結果,SFT後の推論ベンチマークにおいて,より強い長コンテキスト能力を持つモデルの方が高い精度が得られるという一貫した傾向がみられた。
これらの結果から,長文モデリングは長文入力の処理に必須であるだけでなく,推論において重要な基礎となることが示唆された。
- 参考スコア(独自算出の注目度): 23.301029291780317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent language models exhibit strong reasoning capabilities, yet the influence of long-context capacity on reasoning remains underexplored. In this work, we hypothesize that current limitations in reasoning stem, in part, from insufficient long-context capacity, motivated by empirical observations such as (1) higher context window length often leads to stronger reasoning performance, and (2) failed reasoning cases resemble failed long-context cases. To test this hypothesis, we examine whether enhancing a model's long-context ability before Supervised Fine-Tuning (SFT) leads to improved reasoning performance. Specifically, we compared models with identical architectures and fine-tuning data but varying levels of long-context capacity. Our results reveal a consistent trend: models with stronger long-context capacity achieve significantly higher accuracy on reasoning benchmarks after SFT. Notably, these gains persist even on tasks with short input lengths, indicating that long-context training offers generalizable benefits for reasoning performance. These findings suggest that long-context modeling is not just essential for processing lengthy inputs, but also serves as a critical foundation for reasoning. We advocate for treating long-context capacity as a first-class objective in the design of future language models.
- Abstract(参考訳): 近年の言語モデルは強い推論能力を示すが、長文の能力が推論に与える影響は未解明のままである。
本研究は,(1)高文脈ウィンドウ長などの経験的観察によって動機づけられた,長期コンテキスト能力の不足から,推論ステムの現在の限界がより強い推論性能をもたらすこと,(2)失敗した推論ケースが失敗した長期コンテキストケースと似ていること,の仮説である。
この仮説を検証するために,SFT(Supervised Fine-Tuning)に先立って,モデルの長文化能力を高めることで推論性能が向上するかどうかを検討する。
具体的には,モデルと同一のアーキテクチャと微調整データを比較した。
その結果,SFT後の推論ベンチマークにおいて,より強い長コンテキスト能力を持つモデルの方が高い精度が得られるという一貫した傾向がみられた。
特に、これらの利得は短い入力長のタスクでも持続し、長文学習が推論性能に一般化可能な利点をもたらすことを示す。
これらの結果から,長文モデリングは長文入力の処理に必須であるだけでなく,推論において重要な基礎となることが示唆された。
我々は,将来的な言語モデルの設計において,長文のキャパシティを第一級の目的として扱うことを提唱する。
関連論文リスト
- Chain-of-Thought Matters: Improving Long-Context Language Models with Reasoning Path Supervision [40.63870977649693]
Chain-of-Thoughtプロンプトは、多段階推論を約束するが、長文シナリオの有効性は未検討のままである。
本稿では,LongRePSを提案する。LongRePSは,長いコンテキスト性能を向上させるための高品質な推論経路をモデルに教えるフレームワークである。
本フレームワークには,推論パスをブートストラップする自己サンプリング機構と,長期シナリオ用に設計された新しい品質評価プロトコルが組み込まれている。
論文 参考訳(メタデータ) (2025-02-28T07:15:12Z) - Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning [103.65680870130839]
本研究では,長期事前学習モデルの学習後段階の指導データを設計する方法について検討する。
制御された研究では、短い文脈で調整されたモデルが、より長いコンテキストに効果的に一般化できることが判明した。
これらの知見に基づいて,新しいデータ合成フレームワークであるコンテキスト合成を提案する。
論文 参考訳(メタデータ) (2025-02-21T17:02:40Z) - LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization [49.37607974207405]
LongPOはショート・ツー・ロングの嗜好データを利用して、ショート・コンテクストの機能をロング・コンテクストのタスクに転送する。
LongPOは短文性能を完全に保持し、長文タスクと短文タスクの両方において単純 SFT と DPO をほぼ上回っている。
論文 参考訳(メタデータ) (2025-02-19T17:59:03Z) - LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data [19.79929012055293]
LongFaithは忠実な長文推論命令データセットを合成するための新しいパイプラインである。
基礎的真理と引用に基づく推論のプロンプトを統合することにより、注意散らしを排除し、推論連鎖の精度を向上させる。
論文 参考訳(メタデータ) (2025-02-18T06:40:23Z) - LongReason: A Synthetic Long-Context Reasoning Benchmark via Context Expansion [20.293369733522983]
LongReasonは、大規模言語モデルの長文推論能力を評価するための総合ベンチマークである。
LongReasonは、3つのタスクカテゴリにまたがる多様な推論パターンを持つ794の多重選択推論質問で構成されている。
LLMをLongReason上で評価した結果,コンテキスト長の増加に伴い,ほとんどのモデルが大幅な性能低下を経験していることが判明した。
論文 参考訳(メタデータ) (2025-01-25T05:32:14Z) - LongReward: Improving Long-context Large Language Models with AI Feedback [54.3321542678909]
LongRewardは、4次元の長文モデル応答に対して報酬を与える新しい方法である。
実験の結果,LongRewardはモデル長文性能を大幅に向上するだけでなく,短い命令に従う能力も向上することがわかった。
論文 参考訳(メタデータ) (2024-10-28T17:50:42Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。