論文の概要: Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.11748v1
- Date: Thu, 12 Feb 2026 09:24:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.744405
- Title: Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning
- Title(参考訳): より深く探究する - 長大な強化学習を通じて、インコンテキストを探求することを学ぶ
- Authors: Futing Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin,
- Abstract要約: 文脈内探索(In-context Exploring)は、単一の連続した文脈内で仮説を生成、検証、洗練する本質的な能力である。
本稿では,モデルにさらなる探索を促すLongth-Incentivized Explorationを提案する。
提案手法は、ドメイン内タスクの平均4.4%改善と、ドメイン外ベンチマークの2.7%向上を実現している。
- 参考スコア(独自算出の注目度): 53.58654277639939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving effective test-time scaling requires models to engage in In-Context Exploration -- the intrinsic ability to generate, verify, and refine multiple reasoning hypotheses within a single continuous context. Grounded in State Coverage theory, our analysis identifies a critical bottleneck to enabling this capability: while broader state coverage requires longer reasoning trajectories, the probability of sampling such sequences decays exponentially during autoregressive generation, a phenomenon we term the ``Shallow Exploration Trap''. To bridge this gap, we propose Length-Incentivized Exploration(\method). This simple yet effective recipe explicitly encourages models to explore more via a length-based reward coupled with a redundancy penalty, thereby maximizing state coverage in two-step manner. Comprehensive experiments across different models (Qwen3, Llama) demonstrate that \method effectively incentivize in-context exploration. As a result, our method achieves an average improvement of 4.4\% on in-domain tasks and a 2.7\% gain on out-of-domain benchmarks.
- Abstract(参考訳): 効果的なテスト時間スケーリングを実現するには、In-Context Exploration - 単一の連続したコンテキスト内で複数の推論仮説を生成し、検証し、洗練する本質的な能力 - に関わるモデルが必要である。
より広範な状態カバレッジは、長い推論軌道を必要とするが、そのようなシーケンスをサンプリングする確率は、自己回帰生成中に指数関数的に低下する。
このギャップを埋めるために、Longth-Incentivized Exploration(\method)を提案する。
このシンプルで効果的なレシピは、冗長なペナルティと組み合わされた長さベースの報酬を通じてモデルにさらなる探索を奨励し、2段階の方法で状態カバレッジを最大化する。
異なるモデル (Qwen3, Llama) にわたる包括的実験により、 \method がコンテキスト内探索を効果的に動機付けることを示した。
その結果,ドメイン内タスクでは平均4.4倍,ドメイン外ベンチマークでは2.7倍に向上した。
関連論文リスト
- Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - IterResearch: Rethinking Long-Horizon Agents via Markovian State Reconstruction [107.49922328855025]
IterResearchは、マルコフ決定過程として長期研究を再構築する、新しい反復的深層研究パラダイムである。
6つのベンチマークで平均+14.5ppの既存のオープンソースエージェントよりも大幅に改善されている。
これは効果的なプロンプト戦略として機能し、ロングホライゾンタスクにおけるReActよりも19.2ppのフロンティアモデルを改善する。
論文 参考訳(メタデータ) (2025-11-10T17:30:08Z) - Exploration by Random Distribution Distillation [28.675586715243437]
textbfRandom textbfDistribution textbfDistillation (RDD) という新しい手法を提案する。
RDDは、通常の分布からターゲットネットワークの出力をサンプリングする。
RDDはカウントベースと予測エラーの両方のアプローチを効果的に統合することを示した。
論文 参考訳(メタデータ) (2025-05-16T09:38:21Z) - A Controlled Study on Long Context Extension and Generalization in LLMs [85.4758128256142]
広義のテキスト理解とテキスト内学習は、完全な文書コンテキストを利用する言語モデルを必要とする。
長期コンテキストモデルを直接訓練する際の実装上の課題のため、長期コンテキストを扱うためにモデルを拡張する多くの方法が提案されている。
我々は,一貫したベースモデルと拡張データを利用して,標準化された評価による拡張メソッドの制御プロトコルを実装した。
論文 参考訳(メタデータ) (2024-09-18T17:53:17Z) - READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Adaptive trajectory-constrained exploration strategy for deep
reinforcement learning [6.589742080994319]
深層強化学習 (DRL) は, まばらさや虚偽の報奨や大きな状態空間を持つタスクにおいて, ハード探索問題に対処する上で, 重大な課題に直面している。
DRLの最適軌道制約探索法を提案する。
2つの大きな2次元グリッドワールド迷路と複数のMuJoCoタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-12-27T07:57:15Z) - Time to Focus: A Comprehensive Benchmark Using Time Series Attribution
Methods [4.9449660544238085]
本論文は時系列解析といくつかの最先端属性手法のベンチマークに焦点をあてる。
本実験では, 勾配および摂動に基づく帰属法について検討した。
その結果,最も適した帰属法を選択することは,所望のユースケースと強く相関していることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T10:06:13Z) - Residual Overfit Method of Exploration [78.07532520582313]
提案手法は,2点推定値の調整と1点オーバーフィットに基づく近似探索手法を提案する。
このアプローチは、調整されたモデルと比較して、オーバーフィットモデルが最も過度な適合を示すアクションへの探索を促進する。
ROMEを3つのデータセット上の確立されたコンテキスト的帯域幅法と比較し、最も優れたパフォーマンスの1つとみなす。
論文 参考訳(メタデータ) (2021-10-06T17:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。