論文の概要: From Building Blocks to Planning: Multi-Step Spatial Reasoning in LLMs with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.24532v1
- Date: Wed, 31 Dec 2025 00:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.520086
- Title: From Building Blocks to Planning: Multi-Step Spatial Reasoning in LLMs with Reinforcement Learning
- Title(参考訳): 建築ブロックから計画へ:強化学習によるLLMにおけるマルチステップ空間推論
- Authors: Amir Tahmasbi, Sadegh Majidi, Kazem Taram, Aniket Bera,
- Abstract要約: 空間的推論を原子構造ブロックとその構成に分解する2段階の手法を提案する。
まず, モデルに基本空間物理学を組み込むために, 回転, 翻訳, スケーリングなどの基本空間変換の教師付き微調整を適用する。
次に、この物理認識モデルを凍結し、GRPOフレームワーク内で軽量のLoRAアダプタを訓練し、これらのビルディングブロックを構成するポリシーを学習し、マルチステッププランニングする。
- 参考スコア(独自算出の注目度): 10.98910502098502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning in large language models (LLMs) has gained increasing attention due to applications in navigation and planning. Despite strong general language capabilities, LLMs still struggle with spatial transformations and multi-step planning in structured environments. We propose a two-stage approach that decomposes spatial reasoning into atomic building blocks and their composition. First, we apply supervised fine-tuning on elementary spatial transformations, such as rotation, translation, and scaling, to equip the model with basic spatial physics. We then freeze this physics-aware model and train lightweight LoRA adapters within the GRPO framework to learn policies that compose these building blocks for multi-step planning in puzzle-based environments, in a closed-loop manner. To support this pipeline, we synthesize an ASCII-art dataset and construct a corresponding ASCII-based reinforcement learning environment. Our method consistently outperforms baselines, including the generic backbone, physics-aware model, and end-to-end RL models, under both Dynamic environments with explicit state updates and Static environments where the model must rely on its internal state across steps. In addition, the proposed approach converges faster and exhibits more stable training compared to end-to-end reinforcement learning from scratch. Finally, we analyze attention patterns to assess whether fine-tuning induces meaningful improvements in spatial understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)における空間的推論は,ナビゲーションや計画への応用により注目されている。
言語能力は強いが、LLMは構造化環境における空間変換と多段階計画に苦戦している。
空間的推論を原子構造ブロックとその構成に分解する2段階の手法を提案する。
まず, モデルに基本空間物理学を組み込むために, 回転, 翻訳, スケーリングなどの基本空間変換の教師付き微調整を適用する。
次に、この物理認識モデルを凍結し、GRPOフレームワーク内で軽量のLORAアダプタを訓練し、パズルベースの環境において、これらのビルディングブロックを構成するポリシーをクローズループ方式で学習する。
このパイプラインをサポートするために、ASCIIアートデータセットを合成し、対応するASCIIベースの強化学習環境を構築する。
提案手法は,動的環境と静的環境の両方において,一般的なバックボーン,物理認識モデル,エンド・ツー・エンドのRLモデルなどのベースラインを常に上回っている。
さらに,提案手法はより高速に収束し,スクラッチからエンドツーエンドの強化学習よりも安定した訓練を行う。
最後に、注意パターンを分析し、微調整が空間的理解に有意義な改善をもたらすかどうかを評価する。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Top 10 Open Challenges Steering the Future of Diffusion Language Model and Its Variants [85.33837131101342]
本稿では,基盤基盤,アルゴリズム最適化,認知推論,統合マルチモーダルインテリジェンスという4つの柱で構成された戦略ロードマップを提案する。
この移行は、複雑な構造的推論、動的自己補正、シームレスなマルチモーダル統合が可能な次世代AIの開発に不可欠である、と我々は主張する。
論文 参考訳(メタデータ) (2026-01-20T14:58:23Z) - Natural Building Blocks for Structured World Models: Theory, Evidence, and Scaling [42.78591555984395]
本研究では,構造化世界モデルの自然構築ブロックを規定するフレームワークを提案する。
本研究では,隠れマルコフモデル (HMM) と線形切替力学系 (sLDS) を離散的・連続的モデリングのための自然な構築ブロックとして検討する。
このモジュラーアプローチは、受動的モデリング(生成、予測)と、同じアーキテクチャ内のアクティブコントロール(計画、意思決定)の両方をサポートする。
論文 参考訳(メタデータ) (2025-11-03T22:02:04Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - ST-LINK: Spatially-Aware Large Language Models for Spatio-Temporal Forecasting [7.853736939635847]
逐次的依存関係をキャプチャする大規模言語モデルの能力を高める新しいフレームワークST-LINKを紹介する。
その鍵となる構成要素は空間拡張注意(SE-Attention)とメモリ検索フィードフォワードネットワーク(MRFFN)である。
論文 参考訳(メタデータ) (2025-09-17T07:11:45Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - A Fuzzy Logic Prompting Framework for Large Language Models in Adaptive and Uncertain Tasks [2.1756081703276]
動的でユーザ中心のタスクにまたがる大規模言語モデル(LLM)のより安全で適応的な利用をサポートするモジュール型プロンプトフレームワークを導入する。
本手法は,ファジィな足場論理と適応規則を符号化した制御スキーマと,自然言語境界プロンプトを組み合わせる。
シミュレーションされたインテリジェントなチューター設定では、このフレームワークは、複数のモデル間の足場品質、適応性、命令的アライメントを改善し、標準のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-08-08T23:50:48Z) - Penrose Tiled Low-Rank Compression and Section-Wise Q&A Fine-Tuning: A General Framework for Domain-Specific Large Language Model Adaptation [7.161207910629032]
大規模言語モデル(LLM)は、材料科学のような専門的な科学分野に対して大きな約束を持っている。
本稿では,この課題に対処するために,構造化モデル圧縮と科学的微調整システムを組み合わせた2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-28T01:33:05Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。