論文の概要: ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2604.04664v1
- Date: Mon, 06 Apr 2026 13:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.200058
- Title: ROSClaw: A Hierarchical Semantic-Physical Framework for Heterogeneous Multi-Agent Collaboration
- Title(参考訳): ROSClaw:不均一な多エージェントコラボレーションのための階層的セマンティック・物理フレームワーク
- Authors: Rongfeng Zhao, Xuanhao Zhang, Zhaochen Guo, Xiang Shao, Zhongpan Zhu, Bin He, Jie Chen,
- Abstract要約: ROSClawは、統一視覚言語モデル(VLM)コントローラにポリシー学習とタスク実行を統合する異種ロボットのためのエージェントフレームワークである。
自律的なクローズループフレームワークを確立することにより、ROSClawはロボット固有の開発への依存を最小限に抑える。
- 参考スコア(独自算出の注目度): 9.434833852972353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of large language models (LLMs) with embodied agents has improved high-level reasoning capabilities; however, a critical gap remains between semantic understanding and physical execution. While vision-language-action (VLA) and vision-language-navigation (VLN) systems enable robots to perform manipulation and navigation tasks from natural language instructions, they still struggle with long-horizon sequential and temporally structured tasks. Existing frameworks typically adopt modular pipelines for data collection, skill training, and policy deployment, resulting in high costs in experimental validation and policy optimization. To address these limitations, we propose ROSClaw, an agent framework for heterogeneous robots that integrates policy learning and task execution within a unified vision-language model (VLM) controller. The framework leverages e-URDF representations of heterogeneous robots as physical constraints to construct a sim-to-real topological mapping, enabling real-time access to the physical states of both simulated and real-world agents. We further incorporate a data collection and state accumulation mechanism that stores robot states, multimodal observations, and execution trajectories during real-world execution, enabling subsequent iterative policy optimization. During deployment, a unified agent maintains semantic continuity between reasoning and execution, and dynamically assigns task-specific control to different agents, thereby improving robustness in multi-policy execution. By establishing an autonomous closed-loop framework, ROSClaw minimizes the reliance on robot-specific development workflows. The framework supports hardware-level validation, automated generation of SDK-level control programs, and tool-based execution, enabling rapid cross-platform transfer and continual improvement of robotic skills. Ours project page: https://www.rosclaw.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)とエンボディエージェントの統合により、高度な推論能力が改善されたが、セマンティック理解と物理的実行の間には重要なギャップが残っている。
VLA(Vision-Language-action)とVLN(Vision-Language-Navigation)システムでは、ロボットが自然言語命令から操作やナビゲーションタスクを実行できるが、それでも長期的かつ時間的に構造化されたタスクに苦慮している。
既存のフレームワークでは一般的に,データ収集やスキルトレーニング,ポリシデプロイメントにモジュールパイプラインを採用しています。
これらの制約に対処するために、統一視覚言語モデル(VLM)コントローラにポリシー学習とタスク実行を統合する異種ロボットのためのエージェントフレームワークであるROSClawを提案する。
このフレームワークは、異種ロボットのe-URDF表現を物理的制約として活用し、シミュレートされたエージェントと実世界のエージェントの両方の物理的状態へのリアルタイムアクセスを可能にするシミュレート・トゥ・リアルなトポロジカルマッピングを構築する。
さらに、ロボットの状態、マルチモーダルな観察、実行軌跡を実世界の実行中に格納するデータ収集および状態蓄積機構を導入し、その後の反復的ポリシー最適化を可能にする。
デプロイ中、統合されたエージェントは推論と実行の間のセマンティックな連続性を維持し、動的にタスク固有の制御を異なるエージェントに割り当てる。
自律的なクローズドループフレームワークを確立することで、ROSClawはロボット固有の開発ワークフローへの依存を最小限に抑える。
このフレームワークは、ハードウェアレベルの検証、SDKレベルの制御プログラムの自動生成、ツールベースの実行をサポートし、クロスプラットフォームの迅速な転送とロボットスキルの継続的な改善を可能にしている。
私たちのプロジェクトページは、https://www.rosclaw.io/です。
関連論文リスト
- Closed-Loop Verbal Reinforcement Learning for Task-Level Robotic Planning [1.6641413441634143]
本稿では,モバイルロボットシステムにおけるタスクレベル計画の解釈のための新しい言語強化学習フレームワークを提案する。
このフレームワークはクローズドループアーキテクチャに従い、物理的環境との相互作用を通じて反復的なポリシー改善を可能にする。
提案手法は,実行不確実性下で複数段操作およびナビゲーションタスクを行う実移動ロボット上で検証される。
論文 参考訳(メタデータ) (2026-03-23T16:28:36Z) - RoboNeuron: A Modular Framework Linking Foundation Models and ROS for Embodied AI [13.74517467087138]
RoboNeuronは、インテリジェンスの普遍的なデプロイフレームワークである。
ロボット・オペレーティング・システム(ROS)のリアルタイム実行バックボーンに、LLM(Large Language Models)とVLA(Vision-Language-Action)モデルの認知能力を深く統合する最初のフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T07:58:19Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - State and Memory is All You Need for Robust and Reliable AI Agents [29.259008600842517]
大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。
しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。
本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
論文 参考訳(メタデータ) (2025-06-30T02:02:35Z) - From Virtual Agents to Robot Teams: A Multi-Robot Framework Evaluation in High-Stakes Healthcare Context [2.016235597066821]
現在のフレームワークは、エージェントを物理的に具体化されたエンティティではなく、概念的なタスク実行子として扱う。
本稿では,プロセスの透明性,前向きな障害回復,コンテキストグラウンド化を重視した3つの設計ガイドラインを提案する。
我々の研究は、よりレジリエントで堅牢なマルチエージェントロボットシステムの開発を知らせる。
論文 参考訳(メタデータ) (2025-06-04T04:05:38Z) - RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。
大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。
強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-05-03T06:17:18Z) - Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。
近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。
我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - ROS-LLM: A ROS framework for embodied AI with task feedback and structured reasoning [74.58666091522198]
非専門家による直感的なロボットプログラミングのためのフレームワークを提案する。
ロボットオペレーティングシステム(ROS)からの自然言語のプロンプトと文脈情報を活用する
我々のシステムは,大規模言語モデル (LLM) を統合し,非専門家がチャットインタフェースを通じてシステムにタスク要求を記述できるようにする。
論文 参考訳(メタデータ) (2024-06-28T08:28:38Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。