論文の概要: From Building Blocks to Planning: Multi-Step Spatial Reasoning in LLMs with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.24532v1
- Date: Wed, 31 Dec 2025 00:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.520086
- Title: From Building Blocks to Planning: Multi-Step Spatial Reasoning in LLMs with Reinforcement Learning
- Title(参考訳): 建築ブロックから計画へ:強化学習によるLLMにおけるマルチステップ空間推論
- Authors: Amir Tahmasbi, Sadegh Majidi, Kazem Taram, Aniket Bera,
- Abstract要約: 空間的推論を原子構造ブロックとその構成に分解する2段階の手法を提案する。
まず, モデルに基本空間物理学を組み込むために, 回転, 翻訳, スケーリングなどの基本空間変換の教師付き微調整を適用する。
次に、この物理認識モデルを凍結し、GRPOフレームワーク内で軽量のLoRAアダプタを訓練し、これらのビルディングブロックを構成するポリシーを学習し、マルチステッププランニングする。
- 参考スコア(独自算出の注目度): 10.98910502098502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial reasoning in large language models (LLMs) has gained increasing attention due to applications in navigation and planning. Despite strong general language capabilities, LLMs still struggle with spatial transformations and multi-step planning in structured environments. We propose a two-stage approach that decomposes spatial reasoning into atomic building blocks and their composition. First, we apply supervised fine-tuning on elementary spatial transformations, such as rotation, translation, and scaling, to equip the model with basic spatial physics. We then freeze this physics-aware model and train lightweight LoRA adapters within the GRPO framework to learn policies that compose these building blocks for multi-step planning in puzzle-based environments, in a closed-loop manner. To support this pipeline, we synthesize an ASCII-art dataset and construct a corresponding ASCII-based reinforcement learning environment. Our method consistently outperforms baselines, including the generic backbone, physics-aware model, and end-to-end RL models, under both Dynamic environments with explicit state updates and Static environments where the model must rely on its internal state across steps. In addition, the proposed approach converges faster and exhibits more stable training compared to end-to-end reinforcement learning from scratch. Finally, we analyze attention patterns to assess whether fine-tuning induces meaningful improvements in spatial understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)における空間的推論は,ナビゲーションや計画への応用により注目されている。
言語能力は強いが、LLMは構造化環境における空間変換と多段階計画に苦戦している。
空間的推論を原子構造ブロックとその構成に分解する2段階の手法を提案する。
まず, モデルに基本空間物理学を組み込むために, 回転, 翻訳, スケーリングなどの基本空間変換の教師付き微調整を適用する。
次に、この物理認識モデルを凍結し、GRPOフレームワーク内で軽量のLORAアダプタを訓練し、パズルベースの環境において、これらのビルディングブロックを構成するポリシーをクローズループ方式で学習する。
このパイプラインをサポートするために、ASCIIアートデータセットを合成し、対応するASCIIベースの強化学習環境を構築する。
提案手法は,動的環境と静的環境の両方において,一般的なバックボーン,物理認識モデル,エンド・ツー・エンドのRLモデルなどのベースラインを常に上回っている。
さらに,提案手法はより高速に収束し,スクラッチからエンドツーエンドの強化学習よりも安定した訓練を行う。
最後に、注意パターンを分析し、微調整が空間的理解に有意義な改善をもたらすかどうかを評価する。
関連論文リスト
- Natural Building Blocks for Structured World Models: Theory, Evidence, and Scaling [42.78591555984395]
本研究では,構造化世界モデルの自然構築ブロックを規定するフレームワークを提案する。
本研究では,隠れマルコフモデル (HMM) と線形切替力学系 (sLDS) を離散的・連続的モデリングのための自然な構築ブロックとして検討する。
このモジュラーアプローチは、受動的モデリング(生成、予測)と、同じアーキテクチャ内のアクティブコントロール(計画、意思決定)の両方をサポートする。
論文 参考訳(メタデータ) (2025-11-03T22:02:04Z) - ST-LINK: Spatially-Aware Large Language Models for Spatio-Temporal Forecasting [7.853736939635847]
逐次的依存関係をキャプチャする大規模言語モデルの能力を高める新しいフレームワークST-LINKを紹介する。
その鍵となる構成要素は空間拡張注意(SE-Attention)とメモリ検索フィードフォワードネットワーク(MRFFN)である。
論文 参考訳(メタデータ) (2025-09-17T07:11:45Z) - A Fuzzy Logic Prompting Framework for Large Language Models in Adaptive and Uncertain Tasks [2.1756081703276]
動的でユーザ中心のタスクにまたがる大規模言語モデル(LLM)のより安全で適応的な利用をサポートするモジュール型プロンプトフレームワークを導入する。
本手法は,ファジィな足場論理と適応規則を符号化した制御スキーマと,自然言語境界プロンプトを組み合わせる。
シミュレーションされたインテリジェントなチューター設定では、このフレームワークは、複数のモデル間の足場品質、適応性、命令的アライメントを改善し、標準のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-08-08T23:50:48Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。