論文の概要: Robix: A Unified Model for Robot Interaction, Reasoning and Planning
- arxiv url: http://arxiv.org/abs/2509.01106v2
- Date: Thu, 11 Sep 2025 12:40:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 13:52:32.835221
- Title: Robix: A Unified Model for Robot Interaction, Reasoning and Planning
- Title(参考訳): Robix: ロボットのインタラクション、推論、計画のための統一モデル
- Authors: Huang Fang, Mengxi Zhang, Heng Dong, Wei Li, Zixuan Wang, Qifeng Zhang, Xueyun Tian, Yucheng Hu, Hang Li,
- Abstract要約: Robixは、ロボット推論、タスク計画、自然言語の相互作用を単一の視覚言語アーキテクチャに統合する統一モデルである。
Robixは、低レベルコントローラのためのアトミックコマンドを動的に生成し、ヒューマンインタラクションのための言語応答を生成する。
- 参考スコア(独自算出の注目度): 28.191138548365203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Robix, a unified model that integrates robot reasoning, task planning, and natural language interaction within a single vision-language architecture. Acting as the high-level cognitive layer in a hierarchical robot system, Robix dynamically generates atomic commands for the low-level controller and verbal responses for human interaction, enabling robots to follow complex instructions, plan long-horizon tasks, and interact naturally with human within an end-to-end framework. Robix further introduces novel capabilities such as proactive dialogue, real-time interruption handling, and context-aware commonsense reasoning during task execution. At its core, Robix leverages chain-of-thought reasoning and adopts a three-stage training strategy: (1) continued pretraining to enhance foundational embodied reasoning abilities including 3D spatial understanding, visual grounding, and task-centric reasoning; (2) supervised finetuning to model human-robot interaction and task planning as a unified reasoning-action sequence; and (3) reinforcement learning to improve reasoning-action consistency and long-horizon task coherence. Extensive experiments demonstrate that Robix outperforms both open-source and commercial baselines (e.g., GPT-4o and Gemini 2.5 Pro) in interactive task execution, demonstrating strong generalization across diverse instruction types (e.g., open-ended, multi-stage, constrained, invalid, and interrupted) and various user-involved tasks such as table bussing, grocery shopping, and dietary filtering.
- Abstract(参考訳): 本稿では,ロボット推論,タスク計画,自然言語インタラクションを統合した統一モデルであるRobixを紹介する。
階層型ロボットシステムにおけるハイレベル認知層として機能するRobixは、低レベルコントローラのためのアトミックコマンドと人間のインタラクションのための言語応答を動的に生成し、ロボットは複雑な指示に従い、長い水平タスクを計画し、エンドツーエンドのフレームワーク内で自然に人間と対話することができる。
Robixはさらに、タスク実行中にプロアクティブ対話、リアルタイム割り込み処理、コンテキスト対応のコモンセンス推論などの新機能を導入している。
ロビックスの中核はチェーン・オブ・シント推論を活用し,(1)3次元空間理解,視覚的接地,タスク中心推論などの基礎的具体的推論能力を高めるための事前訓練,(2)人間とロボットの相互作用とタスク計画を統一的推論シーケンスとしてモデル化するための教師付き微調整,(3)推論の一貫性と長期的タスクコヒーレンスを改善するための強化学習,である。
大規模な実験により、Robixはインタラクティブなタスク実行においてオープンソースのベースラインと商用ベースライン(例えば、GPT-4oとGemini 2.5 Pro)の両方より優れており、さまざまな命令タイプ(例えば、オープンエンド、マルチステージ、制約付き、無効、中断)と、テーブルバス、食料品の買い物、食事のフィルタリングといった様々なユーザ関連タスクに強い一般化を示している。
関連論文リスト
- RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation [90.81956345363355]
RoBridgeは、一般的なロボット操作のための階層的なインテリジェントアーキテクチャである。
大規模事前学習型視覚言語モデル(VLM)に基づくハイレベル認知プランナー(HCP)で構成されている。
強化学習の手続き的スキルを解き放ち、認知と実行のギャップを効果的に埋める。
論文 参考訳(メタデータ) (2025-05-03T06:17:18Z) - REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - Autonomous Behavior Planning For Humanoid Loco-manipulation Through Grounded Language Model [6.9268843428933025]
大規模言語モデル(LLM)は、意味情報の理解と処理のための強力な計画と推論能力を示している。
本稿では,ロボットが与えられたテキストによる指示の下で,自律的に動作や低レベル実行を計画できる新しい言語モデルベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T17:33:32Z) - Interactive Multi-Robot Flocking with Gesture Responsiveness and Musical Accompaniment [0.7659052547635159]
この研究は魅力的なマルチロボットタスクを示し、その主な目的は熱意と関心を喚起することである。
このタスクでは、人間と一緒に動き、ダイナミックで表現力のあるロボット群に参加することが目標である。
この目的に向けて、研究チームはロボットの動きとジェスチャーや音といった対話モードを関連づけるアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-03-30T18:16:28Z) - RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis [102.1876259853457]
汎用ロボット行動合成のための木構造多モードコード生成フレームワークRoboCodeXを提案する。
RoboCodeXは、高レベルの人間の命令を複数のオブジェクト中心の操作ユニットに分解する。
概念的および知覚的理解を制御コマンドにマッピングする能力をさらに強化するため、事前学習のための特別なマルチモーダル推論データセットを収集し、教師付き微調整のための反復的自己更新手法を導入する。
論文 参考訳(メタデータ) (2024-02-25T15:31:43Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - CoPAL: Corrective Planning of Robot Actions with Large Language Models [7.944803163555092]
本稿では,認知レベル間のシームレスな相互作用を編成し,推論,計画,動作生成を包含するシステムアーキテクチャを提案する。
中心となるのは、生成した計画における物理的に基底的、論理的、セマンティックなエラーを処理する、新しいリプラン戦略である。
論文 参考訳(メタデータ) (2023-10-11T07:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。