論文の概要: Robot Confirmation Generation and Action Planning Using Long-context Q-Former Integrated with Multimodal LLM
- arxiv url: http://arxiv.org/abs/2511.17335v1
- Date: Fri, 21 Nov 2025 15:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.089325
- Title: Robot Confirmation Generation and Action Planning Using Long-context Q-Former Integrated with Multimodal LLM
- Title(参考訳): マルチモーダルLLMを統合した長文Q-Formerを用いたロボット確認生成と行動計画
- Authors: Chiori Hori, Yoshiki Masuyama, Siddarth Jain, Radu Corcodel, Devesh Jha, Diego Romeres, Jonathan Le Roux,
- Abstract要約: 本稿では,マルチモーダルシーン理解を用いたロボット行動確認とアクションステップ生成に依存した人間-ロボット対話に基づく人間-ロボットインタラクション(HRI)に焦点を当てた。
最先端のアプローチでは、マルチモーダルトランスフォーマーを使用して、複数のマイクロステップからなるタスクを示す単一のクリップから、ロボットアクション確認に対応するロボットアクションステップを生成する。
- 参考スコア(独自算出の注目度): 37.09992708719033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-robot collaboration towards a shared goal requires robots to understand human action and interaction with the surrounding environment. This paper focuses on human-robot interaction (HRI) based on human-robot dialogue that relies on the robot action confirmation and action step generation using multimodal scene understanding. The state-of-the-art approach uses multimodal transformers to generate robot action steps aligned with robot action confirmation from a single clip showing a task composed of multiple micro steps. Although actions towards a long-horizon task depend on each other throughout an entire video, the current approaches mainly focus on clip-level processing and do not leverage long-context information. This paper proposes a long-context Q-former incorporating left and right context dependency in full videos. Furthermore, this paper proposes a text-conditioning approach to feed text embeddings directly into the LLM decoder to mitigate the high abstraction of the information in text by Q-former. Experiments with the YouCook2 corpus show that the accuracy of confirmation generation is a major factor in the performance of action planning. Furthermore, we demonstrate that the long-context Q-former improves the confirmation and action planning by integrating VideoLLaMA3.
- Abstract(参考訳): 共同目標に向けた人間とロボットのコラボレーションには、人間の行動と周囲の環境との相互作用を理解するロボットが必要である。
本稿では,マルチモーダルシーン理解を用いたロボット行動確認とアクションステップ生成に依存した人間-ロボット対話に基づく人間-ロボットインタラクション(HRI)に焦点を当てた。
最先端のアプローチでは、マルチモーダルトランスフォーマーを使用して、複数のマイクロステップからなるタスクを示す単一のクリップから、ロボットアクション確認に対応するロボットアクションステップを生成する。
長軸タスクに対するアクションは、ビデオ全体を通して相互に依存するが、現在のアプローチは主にクリップレベルの処理に焦点を当てており、長いコンテキスト情報を活用していない。
本稿では,左右のコンテキスト依存をフルビデオに組み込んだ長文Q-formerを提案する。
さらに,本論文では,テキストの埋め込みをLLMデコーダに直接入力することで,Q-former によるテキスト情報の高抽象化を緩和するテキストコンディショニング手法を提案する。
YouCook2コーパスを用いた実験では、動作計画の性能において、確認生成の精度が重要な要因であることが示されている。
さらに、長文Q-formerは、VideoLLaMA3を統合することにより、確認と行動計画を改善することを実証する。
関連論文リスト
- RoboOmni: Proactive Robot Manipulation in Omni-modal Context [165.09049429566238]
我々は,音声対話や環境音,視覚的手がかりから意図を導出する,クロスモーダルな文脈指示を導入する。
目的認識,インタラクション確認,アクション実行を統一する,エンドツーエンドのOmni-Modal LLMに基づくフレームワークであるRoboOmniを提案する。
シミュレーションと実世界の設定の実験では、Robo OmniはテキストベースとASRベースのベースラインを越え、成功率、推論速度、意図認識、積極的に支援している。
論文 参考訳(メタデータ) (2025-10-27T18:49:03Z) - Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models [49.4824734958566]
カオス・オブ・モダリティ(CoM)は、ビジョン言語モデルがマルチモーダルな人間の実演データを推論することを可能にする。
CoMはタスクプランを洗練し、詳細な制御パラメータを生成し、ロボットは単一のマルチモーダルなヒューマンビデオプロンプトに基づいて操作タスクを実行できる。
論文 参考訳(メタデータ) (2025-04-17T21:31:23Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。