論文の概要: Recursive Models for Long-Horizon Reasoning
- arxiv url: http://arxiv.org/abs/2603.02112v1
- Date: Mon, 02 Mar 2026 17:37:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.007489
- Title: Recursive Models for Long-Horizon Reasoning
- Title(参考訳): ロングホライズン推論のための再帰モデル
- Authors: Chenxiao Yang, Nathan Srebro, Zhiyuan Li,
- Abstract要約: 分離された文脈でサブタスクを解くためにモデルが自身を呼び出すことができることを示す。
フレームワークを任意のコンテキスト処理と制御フローを備えた現代的なエージェントシステムに一般化する。
- 参考スコア(独自算出の注目度): 28.82044197167549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models reason within bounded context, an inherent constraint that poses a fundamental barrier to long-horizon reasoning. We identify recursion as a core principle for overcoming this barrier, and propose recursive models as a minimal realization, where the model can recursively invoke itself to solve subtasks in isolated contexts. We prove that any computable problem admits a recursive decomposition in which each subtask requires only exponentially smaller active context than standard autoregressive models; this strictly surpasses any context management approach confined to a single sequence, such as summarization. We further generalize our framework to modern agentic systems with arbitrary context processing and control flows, and prove that recursive models can achieve optimal power within this broader class. Experimentally, we train a 3B model to reason recursively and evaluate on Boolean satisfiability, a task requiring long-horizon combinatorial search, where it significantly outperforms frontier LLMs.
- Abstract(参考訳): 現代の言語モデルは境界づけられた文脈の中で推論し、長い水平の推論に根本的な障壁をもたらす固有の制約である。
我々は、この障壁を克服するための基本原理として再帰を識別し、再帰モデルを最小限の実現として提案する。
計算可能問題は、各サブタスクが標準自己回帰モデルよりも指数関数的に小さいアクティブコンテキストしか必要としない再帰的分解を許容することを証明する。
さらに、任意の文脈処理と制御フローを持つ現代のエージェントシステムに我々のフレームワークを一般化し、このより広いクラス内で再帰的モデルが最適なパワーを達成できることを証明する。
実験により, 3B モデルを用いて再帰的に推論し, ブーリアンの満足度を評価する。
関連論文リスト
- On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks [56.98385132295952]
簡単な計画課題において,チェーン・オブ・ソート・アプローチがいかに一般化するかを評価する。
複数のテキスト形式を組み合わせた推論トレースが、最高の(かつ非自明な)OOD一般化をもたらすことが分かりました。
純粋にテキストベースのモデルは、画像ベースの入力を利用するモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-02-17T09:51:40Z) - Exploring Depth Generalization in Large Language Models for Solving Recursive Logic Tasks [1.0378456753266476]
トランスフォーマーアーキテクチャは、トレーニング中に遭遇するよりも深い再帰を伴う問題に苦しむことを示す。
この制限はスタックのような振舞いを維持することができないことに起因する。
我々は,問題を管理可能なサブコンポーネントに分解するループ式位置交換パイプラインを開発した。
論文 参考訳(メタデータ) (2025-12-02T12:04:51Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - GrootVL: Tree Topology is All You Need in State Space Model [66.36757400689281]
GrootVLは、視覚的タスクとテキストタスクの両方に適用できる多目的マルチモーダルフレームワークである。
本手法は, 画像分類, オブジェクト検出, セグメンテーションにおいて, 既存の構造化状態空間モデルよりも大幅に優れる。
大規模言語モデルの微調整により,本手法は訓練コストの少ない複数のテキストタスクにおいて一貫した改善を実現する。
論文 参考訳(メタデータ) (2024-06-04T15:09:29Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - A Tractable Inference Perspective of Offline RL [36.563229330549284]
オフライン強化学習(RL)タスクの一般的なパラダイムは、まずオフラインのトラジェクトリをシーケンスモデルに適合させ、次に高い期待されたリターンをもたらすアクションのモデルを促すことである。
本稿では,様々な確率的クエリを正確にかつ効率的に応答できるトラクタビリティが,オフラインRLにおいて重要な役割を担っていることを強調する。
本稿では,評価時間における良好なシーケンスモデルと高い期待値とのギャップを埋めるTrifleを提案する。
論文 参考訳(メタデータ) (2023-10-31T19:16:07Z) - Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context
Reasoning with Language Models [58.41943058963672]
我々はRecursion of Thought (RoT)と呼ばれる新しい推論フレームワークを提案する。
RoTはいくつかの特別なトークンを導入し、モデルが出力してコンテキスト関連の操作をトリガーする。
GPT-3を含む複数のアーキテクチャの実験により、RoTは問題を解くためにLMの推論能力を劇的に改善した。
論文 参考訳(メタデータ) (2023-06-12T06:34:16Z) - Finding Alignments Between Interpretable Causal Variables and
Distributed Neural Representations [62.65877150123775]
因果抽象化は、説明可能な人工知能のための有望な理論的枠組みである。
既存の因果抽象法では、高レベルモデルと低レベルモデルの間のアライメントをブルートフォースで探索する必要がある。
これらの制約を克服する分散アライメントサーチ(DAS)を提案する。
論文 参考訳(メタデータ) (2023-03-05T00:57:49Z) - Recursive Reinforcement Learning [4.429642479975602]
再帰は、潜在的無限のオブジェクトを有限に記述する基本的なパラダイムである。
我々はマルコフ決定プロセスの集合として記述された環境における最適ポリシーを計算できるRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-23T00:29:42Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。