論文の概要: Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners
- arxiv url: http://arxiv.org/abs/2505.20573v2
- Date: Tue, 03 Jun 2025 19:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 13:54:39.441771
- Title: Collision- and Reachability-Aware Multi-Robot Control with Grounded LLM Planners
- Title(参考訳): 接地LDMプランナを用いた衝突・到達性を考慮したマルチロボット制御
- Authors: Jiabao Ji, Yongchao Chen, Yang Zhang, Ramana Rao Kompella, Chuchu Fan, Gaowen Liu, Shiyu Chang,
- Abstract要約: 大型言語モデル (LLM) は様々なロボット制御タスクにおいて高い性能を示した。
しかし、現実世界のアプリケーションへの展開は依然として制約がある。
我々は、強化学習と検証可能な報酬を統合する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.407073503042966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated strong performance in various robot control tasks. However, their deployment in real-world applications remains constrained. Even state-ofthe-art LLMs, such as GPT-o4mini, frequently produce invalid action plans that violate physical constraints, such as directing a robot to an unreachable location or causing collisions between robots. This issue primarily arises from a lack of awareness of these physical constraints during the reasoning process. To address this issue, we propose a novel framework that integrates reinforcement learning with verifiable rewards (RLVR) to incentivize knowledge of physical constraints into LLMs to induce constraints-aware reasoning during plan generation. In this approach, only valid action plans that successfully complete a control task receive positive rewards. We applied our method to two small-scale LLMs: a non-reasoning Qwen2.5-3B-Instruct and a reasoning Qwen3-4B. The experiment results demonstrate that constraint-aware small LLMs largely outperform large-scale models without constraints, grounded on both the BoxNet task and a newly developed BoxNet3D environment built using MuJoCo. This work highlights the effectiveness of grounding even small LLMs with physical constraints to enable scalable and efficient multi-robot control in complex, physically constrained environments.
- Abstract(参考訳): 大型言語モデル (LLM) は様々なロボット制御タスクにおいて高い性能を示した。
しかし、現実世界のアプリケーションへの展開は依然として制約がある。
GPT-o4miniのような最先端のLCMでさえ、ロボットを到達不可能な場所に誘導したり、ロボット同士の衝突を引き起こすような物理的な制約に違反する、無効なアクションプランを頻繁に生成する。
この問題は、主に推論過程におけるこれらの物理的制約に対する認識の欠如から生じる。
そこで,本稿では,強化学習と検証可能な報酬(RLVR)を統合した新たなフレームワークを提案する。
このアプローチでは、制御タスクを完了した有効なアクションプランのみが肯定的な報酬を受け取る。
提案手法を2つの小型LCM, 非共振型Qwen2.5-3B-インストラクト, およびQwen3-4Bに適用した。
実験の結果,制約を意識した小型LLMは,MuJoCoを用いて構築したBoxNetタスクと,新たに開発されたBoxNet3D環境の両方に基づいて,制約のない大規模モデルよりも優れていた。
この研究は、複雑で物理的に制約された環境でスケーラブルで効率的なマルチロボット制御を実現するために、物理的制約で小さなLLMを接地する効果を強調している。
関連論文リスト
- SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation [20.743117921048537]
SmallPlanは、教師モデルとしてLarge Language Modelsを活用して、ハイレベルパス計画タスクのために軽量なSLM(Small Language Models)をトレーニングする新しいフレームワークである。
SLMは、シミュレーション駆動のインターリーブ方式で、LLM指導による微調整と強化学習によって訓練される。
SmallPlanはリソース効率が良く、エッジデバイス展開や実用的な自律ロボット工学の進歩に適している。
論文 参考訳(メタデータ) (2025-05-01T19:44:36Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Empowering Large Language Models on Robotic Manipulation with Affordance Prompting [23.318449345424725]
大規模な言語モデルは、制御シーケンスを適切に生成することで物理世界と相互作用することができない。
既存のLLMベースのアプローチでは、事前定義されたスキルや事前訓練されたサブ政治に頼ることでこの問題を回避することができる。
サブタスクプランナとモーションコントローラの両方をLLM+A(ffordance)と呼ぶフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T03:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。