論文の概要: Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs
- arxiv url: http://arxiv.org/abs/2507.16473v2
- Date: Thu, 24 Jul 2025 08:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 13:02:36.859468
- Title: Learning Temporal Abstractions via Variational Homomorphisms in Option-Induced Abstract MDPs
- Title(参考訳): オプション誘導型抽象MDPにおける変分同型による時間的抽象化の学習
- Authors: Chang Li, Yaren Zhang, Haoran Lv, Qiong Cao, Chao Xue, Xiaodong He,
- Abstract要約: 大規模言語モデル(LLMs)は、明示的なChain-of-Thoughtプロンプトを通じて、顕著な推論能力を示している。
モデルがすべてのステップに対して明示的なテキストを生成することなく、潜在空間で"考え"する、効率的で暗黙的な推論のためのフレームワークを開発する。
- 参考スコア(独自算出の注目度): 17.335266921332092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable reasoning ability through explicit Chain-of-Thought (CoT) prompting, but generating these step-by-step textual explanations is computationally expensive and slow. To overcome this, we aim to develop a framework for efficient, implicit reasoning, where the model "thinks" in a latent space without generating explicit text for every step. We propose that these latent thoughts can be modeled as temporally-extended abstract actions, or options, within a hierarchical reinforcement learning framework. To effectively learn a diverse library of options as latent embeddings, we first introduce the Variational Markovian Option Critic (VMOC), an off-policy algorithm that uses variational inference within the HiT-MDP framework. To provide a rigorous foundation for using these options as an abstract reasoning space, we extend the theory of continuous MDP homomorphisms. This proves that learning a policy in the simplified, abstract latent space, for which VMOC is suited, preserves the optimality of the solution to the original, complex problem. Finally, we propose a cold-start procedure that leverages supervised fine-tuning (SFT) data to distill human reasoning demonstrations into this latent option space, providing a rich initialization for the model's reasoning capabilities. Extensive experiments demonstrate that our approach achieves strong performance on complex logical reasoning benchmarks and challenging locomotion tasks, validating our framework as a principled method for learning abstract skills for both language and control.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、明示的なCoT(Chain-of-Thought)のプロンプトを通じて、顕著な推論能力を示しているが、これらのステップバイステップのテキスト説明の生成は、計算的に高価で遅い。
これを解決するために,各ステップに対して明示的なテキストを生成することなく,モデルが潜在空間で「考え」する,効率的で暗黙的な推論のためのフレームワークを開発することを目的とする。
階層的強化学習の枠組みにおいて,これらの潜在思考を時間的に拡張された抽象行動,あるいは選択肢としてモデル化することを提案する。
遅延埋め込みとして多様な選択肢のライブラリを効果的に学習するために、まず、HiT-MDPフレームワーク内で変分推論を使用するオフ政治アルゴリズムである変分マルコフオプション批判(VMOC)を導入する。
これらの選択肢を抽象的推論空間として用いるための厳密な基礎を与えるため、連続 MDP 準同型の理論を拡張する。
このことは、VMOCが適する単純で抽象的な潜在空間におけるポリシーの学習が、元の複雑な問題に対する解の最適性を保っていることを証明している。
最後に、教師付き微調整(SFT)データを利用して、人間の推論デモをこの潜在オプション空間に蒸留し、モデルの推論能力に豊かな初期化を提供する冷間開始手順を提案する。
大規模な実験により,我々の手法は複雑な論理的推論のベンチマークやロコモーションの課題に対して高い性能を達成し,言語と制御の両方の抽象的スキルを学習するための原則的手法として,我々のフレームワークを検証した。
関連論文リスト
- CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Feature-Based vs. GAN-Based Learning from Demonstrations: When and Why [50.191655141020505]
この調査は、デモから学ぶ機能ベースのアプローチとGANベースのアプローチの比較分析を提供する。
特徴に基づく手法とGANに基づく手法の2分法はますます曖昧になっていると我々は主張する。
論文 参考訳(メタデータ) (2025-07-08T11:45:51Z) - Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Learning to Reason via Mixture-of-Thought for Logical Reasoning [56.24256916896427]
Mixture-of-Thought (MoT) は、LLMが自然言語、コード、真理表の3つの相補的なモダリティにまたがる推論を可能にするフレームワークである。
MoT は,(1) 自己進化型 MoT トレーニング,(2) 3 つのモーダルの相乗効果を完全に活用してより良い予測を生成する MoT 推論,という2段階の設計を採用する。
論文 参考訳(メタデータ) (2025-05-21T17:59:54Z) - Beyond Words: A Latent Memory Approach to Internal Reasoning in LLMs [0.0]
本研究では,暗黙的な心的表現を大規模言語モデルの内部推論プロセスに統合する枠組みを提案する。
予備実験は、インプリシットメモリモジュールを単純なGPTモデルに組み込むことで、最終トレーニング損失の35%から57%の削減が得られることを示している。
論文 参考訳(メタデータ) (2025-02-28T13:22:29Z) - LogiDynamics: Unraveling the Dynamics of Logical Inference in Large Language Model Reasoning [49.58786377307728]
本稿では、類似推論のための制御された評価環境を導入することにより、探索的アプローチを採用する。
帰納的,帰納的,帰納的,帰納的な推論パイプラインの比較力学を解析する。
仮説選択や検証,洗練といった高度なパラダイムを考察し,論理的推論のスケールアップの可能性を明らかにする。
論文 参考訳(メタデータ) (2025-02-16T15:54:53Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - MyGO Multiplex CoT: A Method for Self-Reflection in Large Language Models via Double Chain of Thought Thinking [4.234183823376613]
我々は、LLMが推論しながら自己レビューの形式をシミュレートできる手法であるMultiformx CoT(Chain of Thought)を紹介する。
多重 CoT は反復的推論の力を活用し、モデルが最初の思考の連鎖を生成し、その後批判し、この推論を洗練させる。
論文 参考訳(メタデータ) (2025-01-20T12:54:57Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。