論文の概要: RoboOmni: Proactive Robot Manipulation in Omni-modal Context
- arxiv url: http://arxiv.org/abs/2510.23763v1
- Date: Mon, 27 Oct 2025 18:49:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.419517
- Title: RoboOmni: Proactive Robot Manipulation in Omni-modal Context
- Title(参考訳): RoboOmni:Omniモードコンテキストにおけるプロアクティブなロボット操作
- Authors: Siyin Wang, Jinlan Fu, Feihong Liu, Xinzhe He, Huangxuan Wu, Junhao Shi, Kexin Huang, Zhaoye Fei, Jingjing Gong, Zuxuan Wu, Yugang Jiang, See-Kiong Ng, Tat-Seng Chua, Xipeng Qiu,
- Abstract要約: 我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。
目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。
シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
- 参考スコア(独自算出の注目度): 165.09049429566238
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have driven rapid progress in Vision-Language-Action (VLA) models for robotic manipulation. Although effective in many scenarios, current approaches largely rely on explicit instructions, whereas in real-world interactions, humans rarely issue instructions directly. Effective collaboration requires robots to infer user intentions proactively. In this work, we introduce cross-modal contextual instructions, a new setting where intent is derived from spoken dialogue, environmental sounds, and visual cues rather than explicit commands. To address this new setting, we present RoboOmni, a Perceiver-Thinker-Talker-Executor framework based on end-to-end omni-modal LLMs that unifies intention recognition, interaction confirmation, and action execution. RoboOmni fuses auditory and visual signals spatiotemporally for robust intention recognition, while supporting direct speech interaction. To address the absence of training data for proactive intention recognition in robotic manipulation, we build OmniAction, comprising 140k episodes, 5k+ speakers, 2.4k event sounds, 640 backgrounds, and six contextual instruction types. Experiments in simulation and real-world settings show that RoboOmni surpasses text- and ASR-based baselines in success rate, inference speed, intention recognition, and proactive assistance.
- Abstract(参考訳): 近年のMLLM(Multimodal Large Language Models)の進歩は、ロボット操作のためのVLA(Vision-Language-Action)モデルの急速な進歩を促している。
多くのシナリオで有効であるが、現在のアプローチは明示的な指示に大きく依存しているが、現実の相互作用では人間が直接指示を出すことは滅多にない。
効果的なコラボレーションには、ロボットがユーザの意図を積極的に推測する必要がある。
そこで本研究では,音声対話や環境音,視覚的手がかりから意図を導出する,モーダルな文脈指示を導入する。
提案するRoboOmniは,意図認識,インタラクション確認,アクション実行を統一した,エンドツーエンドのOmni-Modal LLMに基づくPerceiver-Thinker-Talker-Executorフレームワークである。
RoboOmniは、直接音声対話をサポートしながら、時間的に聴覚信号と視覚信号を融合して頑健な意図認識を行う。
ロボット操作における前向きな意図認識のためのトレーニングデータがないため,140kエピソード,5k+話者,2.4kイベント音,640バックグラウンド,6種類のコンテキストインストラクションを含むOmniActionを構築した。
シミュレーションと実世界の設定の実験では、RoboOmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
関連論文リスト
- TalkWithMachines: Enhancing Human-Robot Interaction for Interpretable Industrial Robotics Through Large/Vision Language Models [1.534667887016089]
本稿では,Large Language Models (LLMs) とVision Language Models (VLMs) の最近の進歩について検討する。
この統合により、ロボットは自然言語で与えられたコマンドを理解し、実行し、視覚的および/または記述的な入力を通じて環境を認識することができる。
本稿は、低レベル制御を探索するLLM支援型ロボット制御4つについて概説し、(ii)ロボットの内部状態を記述した言語に基づくフィードバックの生成、(iii)視覚情報の追加入力としての利用、(iv)タスク計画とフィードバックを生成するロボット構造情報の利用について述べる。
論文 参考訳(メタデータ) (2024-12-19T23:43:40Z) - In-Context Learning Enables Robot Action Prediction in LLMs [52.285739178561705]
本稿では,ロボットの動作を直接予測する,オフザシェルフテキストのみの大規模言語モデルを実現するフレームワークであるRoboPromptを紹介する。
RoboPromptは、シミュレーションおよび実世界の設定において、ゼロショットとICLベースラインよりもパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-16T17:56:49Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Incremental Learning of Humanoid Robot Behavior from Natural Interaction and Large Language Models [23.945922720555146]
本研究では,自然相互作用から複雑な行動の漸進的な学習を実現するシステムを提案する。
本システムは,ヒューマノイドロボットARMAR-6のロボット認知アーキテクチャに組み込まれている。
論文 参考訳(メタデータ) (2023-09-08T13:29:05Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。