論文の概要: LEAD: Breaking the No-Recovery Bottleneck in Long-Horizon Reasoning
- arxiv url: http://arxiv.org/abs/2603.06870v1
- Date: Fri, 06 Mar 2026 20:42:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.291551
- Title: LEAD: Breaking the No-Recovery Bottleneck in Long-Horizon Reasoning
- Title(参考訳): LEAD: ロング・ホライゾン・リゾニングで回復不可能なボツネックを破る
- Authors: Denys Pushkin, Emmanuel Abbe,
- Abstract要約: 我々は、分解は安定性に不可欠であるが、極端な分解は「回復不能なボトルネック」を生み出すことを示した。
このボトルネックは、いくつかの「ハード」ステップにおける一貫したエラーが不可逆となるような、非常に一様でないエラー分布のために重要となる。
- 参考スコア(独自算出の注目度): 16.617793125380086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon execution in Large Language Models (LLMs) remains unstable even when high-level strategies are provided. Evaluating on controlled algorithmic puzzles, we demonstrate that while decomposition is essential for stability, extreme decomposition creates a "no-recovery bottleneck". We show that this bottleneck becomes critical due to highly non-uniform error distribution, where consistent errors on a few "hard" steps become irreversible. To address this, we propose Lookahead-Enhanced Atomic Decomposition (LEAD). By incorporating short-horizon future validation and aggregating overlapping rollouts, LEAD provides enough isolation to maintain stability while retaining enough local context to correct errors. This enables the o4-mini model to solve Checkers Jumping up to complexity $n=13$, whereas extreme decomposition fails beyond $n=11$.
- Abstract(参考訳): 大規模言語モデル(LLM)における長期水平実行は、高レベルの戦略が提供されても不安定である。
制御されたアルゴリズムパズルを評価した結果、分解は安定性に不可欠であるが、極端な分解は「回復不能なボトルネック」を生じさせることを示した。
このボトルネックは、いくつかの「ハード」ステップにおける一貫したエラーが不可逆となるような、非常に一様でないエラー分布のために重要となる。
そこで我々は,Lookahead-Enhanced Atomic Decomposition (LEAD)を提案する。
短期的な将来の検証と重複するロールアウトの集約によって、LEADは、エラーを修正するのに十分なローカルコンテキストを維持しながら、安定性を維持するのに十分な分離を提供する。
これにより、o4-miniモデルは複雑性$n=13$までジャンプするチェッカーを解くことができるが、極端な分解は$n=11$を超えない。
関連論文リスト
- Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - Memory-Conditioned Flow-Matching for Stable Autoregressive PDE Rollouts [0.0]
自己回帰生成型PDEソルバは1歩前進し、長いロールアウトでドリフトする。
未解決変数の除去はマルコフ項で完全に解決された進化をもたらすことを示す。
次に、条件生成誤差からメモリ近似を分離する離散的なGrnwallロールアウト境界を導出する。
論文 参考訳(メタデータ) (2026-02-06T13:21:52Z) - Optimal Sample Complexity for Single Time-Scale Actor-Critic with Momentum [62.691095807959215]
我々は,シングルタイムスケールアクター・クリティック(AC)アルゴリズムを用いて,$O(-2)$の最適なグローバルポリシを得るための最適なサンプル複雑性を確立する。
これらのメカニズムは、既存のディープラーニングアーキテクチャと互換性があり、実用的な適用性を損なうことなく、小さな修正しか必要としない。
論文 参考訳(メタデータ) (2026-02-02T00:35:42Z) - The Hidden Cost of Approximation in Online Mirror Descent [56.99972253009168]
オンラインミラー降下(OMD)は、最適化、機械学習、シーケンシャルな意思決定において多くのアルゴリズムの基盤となる基本的なアルゴリズムパラダイムである。
本研究では,不正確なOMDに関する系統的研究を開始し,正規化器の滑らかさと近似誤差に対する頑健さとの複雑な関係を明らかにする。
論文 参考訳(メタデータ) (2025-11-27T10:09:07Z) - Learning to Segment for Vehicle Routing Problems [17.833256268800323]
車両ルーティング問題(VRPs)の最先端技術として広く認識されているイテレーティブ
本研究では, 解の大部分が安定であり, 探索を繰り返して変化しないため, 冗長な計算が生じる。
我々は、反復解法を高速化するために、FSTA(First-Segment-Then-Aggregate)分解技法の正式な研究を開拓した。
我々は3つのL2Seg変種を提示する:非自己回帰(グローバルに包括的だが局所的に無差別)、自己回帰(局所的に洗練されているが、グローバルに不足している)、およびそれらの相乗効果。
論文 参考訳(メタデータ) (2025-06-22T05:38:15Z) - Trotter error time scaling separation via commutant decomposition [6.418044102466421]
我々は,可換分解の一般的な枠組みを導入することにより,既存の境界よりもトロッター誤差の推定を改善する。
この定式化は, 従来の結果を直接再現するだけでなく, 高次積公式の誤差推定にも有効であることを示す。
論文 参考訳(メタデータ) (2024-09-25T05:25:50Z) - Distributionally Robust Bayesian Optimization with $\varphi$-divergences [45.48814080654241]
我々は,$varphi$-divergencesにおけるデータシフトに対するロバスト性について考察する。
この設定におけるDRO-BO問題は有限次元最適化問題と等価であり、連続的な文脈でも証明可能な部分線型後悔境界で容易に実装できることを示す。
論文 参考訳(メタデータ) (2022-03-04T04:34:52Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。