論文の概要: A Decomposition Perspective to Long-context Reasoning for LLMs
- arxiv url: http://arxiv.org/abs/2604.07981v1
- Date: Thu, 09 Apr 2026 08:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.810074
- Title: A Decomposition Perspective to Long-context Reasoning for LLMs
- Title(参考訳): LLMにおけるLong-context Reasoningの分解
- Authors: Yanling Xiao, Huaibing Xie, Guoliang Zhao, Shihan Dou, Shaolei Wang, Yiting Liu, Nantao Zheng, Cheng Zhang, Pluto Zhou, Zhisong Zhang, Lemao Liu,
- Abstract要約: 複雑な現実世界のアプリケーションには、長文推論が不可欠である。
本稿では,長文推論を基本的原子スキルの集合に分解する。
私たちはモデルの原子スキルを磨くために強化学習を採用しています。
- 参考スコア(独自算出の注目度): 33.33617233628542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context reasoning is essential for complex real-world applications, yet remains a significant challenge for Large Language Models (LLMs). Despite the rapid evolution in long-context reasoning, current research often overlooks the internal complexity of the long-context reasoning task itself. In this paper, we move beyond this holistic view and decompose long-context reasoning into a set of fundamental atomic skills, and we then automatically synthesize a suite of pseudo datasets, each explicitly targeting a specific atomic skill. Our empirical analysis confirms that proficiency in these atomic skills is strongly correlated with general long-text reasoning performance. Building on this insight, we employ reinforcement learning on these pseudo datasets to sharpen the model's atomic skills, in the hope of boosting its general long-context reasoning ability. Extensive experiments across multiple benchmarks demonstrate the effectiveness of our approach: it outperforms a strong baseline by an average margin of 7.7\% (improving from 46.3\% to 54.0\%) across Loogle, Loong, LongBench-v2, BrowscompLong, Ruler-qa2, and MRCR.
- Abstract(参考訳): 複雑な実世界のアプリケーションには長いコンテキスト推論が不可欠だが、Large Language Models (LLMs) では依然として重要な課題である。
長いコンテキスト推論の急速な進化にもかかわらず、現在の研究はしばしば、長いコンテキスト推論タスク自体の内部の複雑さを見落としている。
本稿では,この包括的視点を超えて,長文推論を基本的原子スキルの集合に分解し,それぞれが特定の原子スキルを明示的に対象とする擬似データセット群を自動的に合成する。
実験により,これらの原子スキルの習熟度は,一般的な長文推論性能と強く相関していることが確認された。
この知見に基づいて、我々はこれらの擬似データセットの強化学習を用いて、その一般的な長文推論能力を高めることを期待して、モデルの原子的スキルを研ぎ澄まそうとしている。
ローグル、ロン、ロングベンチ-v2、ブラウズコンプロング、ルール-qa2、MRCRで平均マージン7.7\%(改善率46.3\%から54.0\%)で強いベースラインを上回ります。
関連論文リスト
- Probing How Scalable Table Data Enhances General Long-Context Reasoning [18.383487310920597]
周期構造を持つ構造化テーブルデータから,長文推論の可能性が示唆された。
高品質で多種多様で検証可能な構造化テーブルデータを合成するための,シンプルでスケーラブルなパイプライン(TableLong)を提案する。
論文 参考訳(メタデータ) (2026-03-23T09:05:46Z) - Context-Length Robustness in Question Answering Models: A Comparative Empirical Study [0.0]
本稿では,SQuADとHotpotQAの2つのベンチマークを用いて,大規模言語モデルにおける文脈長頑健性の実証的研究を行った。
モデル精度を全文脈長の関数として評価し,応答を含む信号を保持しながら,無関係な文脈の量を体系的に増加させることで評価する。
その結果、コンテキスト長が増加するにつれて性能が一貫した低下を示し、マルチホップ推論タスクではシングルスパン抽出タスクよりもはるかに大きな低下が観測された。
論文 参考訳(メタデータ) (2026-03-16T17:14:05Z) - LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards [57.993003392037174]
LongRは動的"Think-and-Read"メカニズムを統合することで、長時間コンテキストのパフォーマンスを向上させるフレームワークである。
LongRは様々なRLアルゴリズムのパフォーマンスを継続的に向上する。
論文 参考訳(メタデータ) (2026-02-05T15:26:47Z) - Longer Context, Deeper Thinking: Uncovering the Role of Long-Context Ability in Reasoning [23.301029291780317]
そこで本研究では,SFT(Supervised Fine-Tuning)に先立って,モデル長文化能力の向上が推論性能の向上に繋がるかどうかを検討する。
その結果,SFT後の推論ベンチマークにおいて,より強い長コンテキスト能力を持つモデルの方が高い精度が得られるという一貫した傾向がみられた。
これらの結果から,長文モデリングは長文入力の処理に必須であるだけでなく,推論において重要な基礎となることが示唆された。
論文 参考訳(メタデータ) (2025-05-22T22:09:47Z) - FactReasoner: A Probabilistic Approach to Long-Form Factuality Assessment for Large Language Models [59.171510592986735]
本稿では,確率論的推論に依拠した新たな事実性評価器FactReasonerを提案する。
ラベル付きおよびラベルなしのベンチマークデータセットの実験は、FactReasonerが最先端のプロンプトベースのアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-02-25T19:01:48Z) - LongFaith: Enhancing Long-Context Reasoning in LLMs with Faithful Synthetic Data [19.79929012055293]
LongFaithは忠実な長文推論命令データセットを合成するための新しいパイプラインである。
基礎的真理と引用に基づく推論のプロンプトを統合することにより、注意散らしを排除し、推論連鎖の精度を向上させる。
論文 参考訳(メタデータ) (2025-02-18T06:40:23Z) - NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。
モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。
実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文 参考訳(メタデータ) (2024-07-16T17:59:06Z) - Leave No Document Behind: Benchmarking Long-Context LLMs with Extended Multi-Doc QA [71.04146366608904]
長いコンテキストモデリング能力は広く注目を集めており、超コンテキストウィンドウを持つLarge Language Models (LLMs) の出現につながっている。
拡張多文書質問応答(QA)によって現実的なシナリオに整合する新しい長文ベンチマークであるLoongを提案する。
Loong氏は、Spotlight Locating, Comparison, Clustering, Chain of Reasoningという、コンテキスト長の4つのタスクを紹介している。
論文 参考訳(メタデータ) (2024-06-25T09:42:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。