論文の概要: Embodied Referring Expression Comprehension in Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2512.06558v1
- Date: Sat, 06 Dec 2025 20:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.173899
- Title: Embodied Referring Expression Comprehension in Human-Robot Interaction
- Title(参考訳): 人間とロボットの相互作用における身体的参照表現の理解
- Authors: Md Mofijul Islam, Alexi Gladstone, Sujan Sarker, Ganesh Nanduru, Md Fahim, Keyan Du, Aman Chadha, Tariq Iqbal,
- Abstract要約: 本稿では,言語と非言語相互作用の大規模データセットであるRefer360データセットを提案する。
また,具体的参照表現理解を改善するために,マルチモーダルガイド型残留モジュールである MuRes も導入した。
- 参考スコア(独自算出の注目度): 18.34016870893218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As robots enter human workspaces, there is a crucial need for them to comprehend embodied human instructions, enabling intuitive and fluent human-robot interaction (HRI). However, accurate comprehension is challenging due to a lack of large-scale datasets that capture natural embodied interactions in diverse HRI settings. Existing datasets suffer from perspective bias, single-view collection, inadequate coverage of nonverbal gestures, and a predominant focus on indoor environments. To address these issues, we present the Refer360 dataset, a large-scale dataset of embodied verbal and nonverbal interactions collected across diverse viewpoints in both indoor and outdoor settings. Additionally, we introduce MuRes, a multimodal guided residual module designed to improve embodied referring expression comprehension. MuRes acts as an information bottleneck, extracting salient modality-specific signals and reinforcing them into pre-trained representations to form complementary features for downstream tasks. We conduct extensive experiments on four HRI datasets, including the Refer360 dataset, and demonstrate that current multimodal models fail to capture embodied interactions comprehensively; however, augmenting them with MuRes consistently improves performance. These findings establish Refer360 as a valuable benchmark and exhibit the potential of guided residual learning to advance embodied referring expression comprehension in robots operating within human environments.
- Abstract(参考訳): ロボットが人間の作業空間に入る際には、人間の指示を具体化し、直感的で流動的な人間とロボットの相互作用(HRI)を可能にすることが不可欠である。
しかし、さまざまなHRI設定で自然に具現化されたインタラクションをキャプチャする大規模なデータセットが不足しているため、正確な理解は難しい。
既存のデータセットは、視点バイアス、単一ビューの収集、非言語的ジェスチャーの不十分なカバレッジ、屋内環境に重点を置いている。
これらの問題に対処するため、屋内および屋外の両方で多様な視点から収集された、大規模に具体化された言語と非言語相互作用のデータセットであるRefer360データセットを提案する。
さらに,具体的参照表現理解を改善するために設計されたマルチモーダルガイド型残留モジュールである MuRes を導入する。
MuResは情報ボトルネックとして機能し、健全なモダリティ固有の信号を抽出し、それらを事前訓練された表現に補強し、下流タスクの補完的な特徴を形成する。
Refer360データセットを含む4つのHRIデータセットに対する広範な実験を行い、現在のマルチモーダルモデルは包括的にエンボディされたインタラクションをキャプチャできないことを示した。
これらの知見はRefer360を貴重なベンチマークとして確立し、人間の環境で動作しているロボットにおいて、参照表現理解の具体化を進めるためのガイド付き残留学習の可能性を示す。
関連論文リスト
- PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments [36.84821207878773]
マルチモーダル大言語モデル(MLLM)における視覚的推論は、主に静的で完全に観測可能な設定で研究されている。
AVR(Active Visual Reasoning)タスクを導入し、視覚的推論を部分的に観察可能で対話的な環境に拡張する。
推論と情報収集の効率性の両方を評価するために,複数ラウンドの対話型環境を特徴とするベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:59:00Z) - Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。
このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。
そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文 参考訳(メタデータ) (2025-06-27T18:09:49Z) - Affogato: Learning Open-Vocabulary Affordance Grounding with Automated Data Generation at Scale [41.693908591580175]
我々は、事前学習された部分認識型ビジョンバックボーンとテキスト条件のヒートマップデコーダを利用するビジョン言語モデルを開発した。
我々のモデルは既存の2Dおよび3Dベンチマークにおいて有望な性能を達成し、特にオープン語彙のクロスドメイン一般化において有効であることを示す。
論文 参考訳(メタデータ) (2025-06-13T17:57:18Z) - Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation [63.54377402784965]
視覚言語ナビゲーション(VLN)のためのリライト駆動型AugMentation(RAM)パラダイムを提案する。
書き換え機構から, シミュレータフリー, 省力両面において, 新たな観察・指導ペアを得ることができた。
離散環境(R2R,REVERIE,R4Rデータセット)と連続環境(R2R-CEデータセット)の両方における実験は,本手法の優れた性能と優れた一般化能力を示している。
論文 参考訳(メタデータ) (2025-03-23T13:18:17Z) - VAGUE: Visual Contexts Clarify Ambiguous Expressions [26.190504250419547]
VAGUEは、意図の視覚的コンテキストを統合するマルチモーダルAIシステムの能力を評価するベンチマークである。
我々の実験によると、既存のマルチモーダルAIモデルは話者の真の意図を推測するのに苦労している。
失敗事例の分析は、現在のモデルが視覚的なシーンにおける表面的相関と真の意図を区別できないことを示す。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models [5.541130887628606]
密接な人間間相互作用における社会的ダイナミクスはヒューマンメッシュ推定(HME)に重大な課題をもたらす
本稿では,LVLM(Large Vision Language Models)を用いた新しいデータ生成手法を提案する。
この手法は、アノテーションの負担を軽減するだけでなく、HME内の密接な相互作用に適した包括的なデータセットの組み立てを可能にする。
論文 参考訳(メタデータ) (2024-10-01T01:14:24Z) - NatSGD: A Dataset with Speech, Gestures, and Demonstrations for Robot
Learning in Natural Human-Robot Interaction [19.65778558341053]
HRIデータセットは、オブジェクトのポインティングやプッシュといった基本的なタスクに重点を置いていることが多い。
音声とジェスチャーによる人間のコマンドを含むマルチモーダルHRIデータセットであるNatSGDを紹介する。
マルチモーダル・ヒューマン・コマンドによるタスク理解のためのロボットの訓練において,その効果を実証する。
論文 参考訳(メタデータ) (2024-03-04T18:02:41Z) - Inter-X: Towards Versatile Human-Human Interaction Analysis [100.254438708001]
正確な身体の動きと多様な相互作用パターンを持つデータセットであるInter-Xを提案する。
データセットは、1Kの相互作用シーケンスと8.1Mフレーム以上を含む。
また、Inter-Xには34K以上の微粒な人間のテキスト記述の多義アノテーションも備えています。
論文 参考訳(メタデータ) (2023-12-26T13:36:05Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。