論文の概要: ActionReasoning: Robot Action Reasoning in 3D Space with LLM for Robotic Brick Stacking
- arxiv url: http://arxiv.org/abs/2602.21161v1
- Date: Tue, 24 Feb 2026 18:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.678957
- Title: ActionReasoning: Robot Action Reasoning in 3D Space with LLM for Robotic Brick Stacking
- Title(参考訳): Action Reasoning:ロボットブロック積み重ねのためのLLMを用いた3次元空間でのロボットアクション推論
- Authors: Guangming Wang, Qizhen Ying, Yixiong Jing, Olaf Wysocki, Brian Sheil,
- Abstract要約: ActionReasoningは、ロボット操作のための物理に一貫性のある事前誘導された決定を生成するための明示的なアクション推論を実行するフレームワークである。
我々は, この枠組みを, すでに正確な環境状態が測定されていると仮定した, レンガ積み重ねの抽出可能なケーススタディに基づいてインスタンス化する。
実験により,提案したマルチエージェント LLM フレームワークは,低レベルドメイン固有コーディングから高レベルツール実行への労力をシフトしながら,安定したブロック配置を可能にすることが示された。
- 参考スコア(独自算出の注目度): 7.594306357823438
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Classical robotic systems typically rely on custom planners designed for constrained environments. While effective in restricted settings, these systems lack generalization capabilities, limiting the scalability of embodied AI and general-purpose robots. Recent data-driven Vision-Language-Action (VLA) approaches aim to learn policies from large-scale simulation and real-world data. However, the continuous action space of the physical world significantly exceeds the representational capacity of linguistic tokens, making it unclear if scaling data alone can yield general robotic intelligence. To address this gap, we propose ActionReasoning, an LLM-driven framework that performs explicit action reasoning to produce physics-consistent, prior-guided decisions for robotic manipulation. ActionReasoning leverages the physical priors and real-world knowledge already encoded in Large Language Models (LLMs) and structures them within a multi-agent architecture. We instantiate this framework on a tractable case study of brick stacking, where the environment states are assumed to be already accurately measured. The environmental states are then serialized and passed to a multi-agent LLM framework that generates physics-aware action plans. The experiments demonstrate that the proposed multi-agent LLM framework enables stable brick placement while shifting effort from low-level domain-specific coding to high-level tool invocation and prompting, highlighting its potential for broader generalization. This work introduces a promising approach to bridging perception and execution in robotic manipulation by integrating physical reasoning with LLMs.
- Abstract(参考訳): 古典的なロボットシステムは通常、制約のある環境のために設計されたカスタムプランナーに依存している。
制限された設定では有効だが、これらのシステムには一般化機能がなく、組み込みAIと汎用ロボットのスケーラビリティが制限されている。
近年のVLA(Vision-Language-Action)アプローチは,大規模シミュレーションと実世界のデータからポリシを学ぶことを目的としている。
しかし、物理世界の連続的な行動空間は言語トークンの表現能力を大幅に超えており、データのスケーリングだけで汎用的な知性が得られるかどうかは不明である。
このギャップに対処するために,ロボット操作のための物理に一貫性のある事前誘導決定を生成するための明示的なアクション推論を行うLCM駆動のフレームワークであるActionReasoningを提案する。
ActionReasoningは、すでにLLM(Large Language Models)にエンコードされている物理の事前と実世界の知識を活用し、それらをマルチエージェントアーキテクチャ内で構造化する。
我々は, この枠組みを, すでに正確な環境状態が測定されていると仮定した, レンガ積み重ねの抽出可能なケーススタディに基づいてインスタンス化する。
環境状態はシリアライズされ、物理を意識したアクションプランを生成するマルチエージェントLCMフレームワークに渡される。
実験により,提案するマルチエージェント LLM フレームワークは,低レベルドメイン固有コーディングから高レベルツール実行への労力をシフトしながら,安定したブロック配置を可能にし,より広範な一般化の可能性を強調した。
本研究は,LLMと物理推論を統合することにより,ロボット操作における知覚と実行をブリッジする,有望なアプローチを導入する。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Deploying Foundation Model-Enabled Air and Ground Robots in the Field: Challenges and Opportunities [65.98704516122228]
基礎モデル(FM)をロボット工学に統合することで、ロボットは自然言語を理解し、環境のセマンティクスを推論できるようになった。
本稿では,FM対応ロボットを現場に展開する上で,大規模で非構造的な環境下でのロボットの運用に必要なミッションについて述べる。
数kmのミッションを持つ非構造環境下での大規模LLM対応ロボット計画の実証実験を行った。
論文 参考訳(メタデータ) (2025-05-14T15:28:43Z) - Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。
提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文 参考訳(メタデータ) (2024-03-25T19:04:59Z) - InCoRo: In-Context Learning for Robotics Control with Feedback Loops [4.702566749969133]
InCoRoは、LLMコントローラ、シーン理解ユニット、ロボットからなる古典的なロボットフィードバックループを使用するシステムである。
システムの一般化能力を強調し,InCoRoが成功率において先行技術を上回ることを示す。
この研究は、動的環境に適応する信頼性があり、効率的でインテリジェントな自律システムを構築するための道を開いた。
論文 参考訳(メタデータ) (2024-02-07T19:01:11Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Prompt a Robot to Walk with Large Language Models [18.214609570837403]
巨大な言語モデル(LLM)は、大規模なインターネットスケールのデータで事前訓練されている。
物理的環境から収集した数発のプロンプトを使用する新しいパラダイムを導入する。
様々なロボットと環境をまたいだ実験により、我々の手法がロボットに歩行を効果的に促すことが検証された。
論文 参考訳(メタデータ) (2023-09-18T17:50:17Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。