論文の概要: CLUE: Crossmodal disambiguation via Language-vision Understanding with attEntion
- arxiv url: http://arxiv.org/abs/2602.08999v1
- Date: Mon, 09 Feb 2026 18:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.297318
- Title: CLUE: Crossmodal disambiguation via Language-vision Understanding with attEntion
- Title(参考訳): CLUE:ttEntionを用いた言語ビジョン理解によるクロスモーダルな曖昧さ
- Authors: Mouad Abrini, Mohamed Chetouani,
- Abstract要約: 人間とロボットの相互作用の重要な要素は対話型ビジュアルグラウンド(IVG)である
既存のIVGモデルは一般に、明確化の質問をいつ行うかを決定するメカニズムを欠いている。
CLUEは、VLMのクロスモーダルな注意を、いつ尋ねるかを決めるための明示的で空間的な信号に変換する。
実世界のIVGのための対話型データセットと、検出器のための混合曖昧性セットをトレーニングする。
- 参考スコア(独自算出の注目度): 1.2031796234206136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing integration of robots into daily life, human-robot interaction has become more complex and multifaceted. A critical component of this interaction is Interactive Visual Grounding (IVG), through which robots must interpret human intentions and resolve ambiguity. Existing IVG models generally lack a mechanism to determine when to ask clarification questions, as they implicitly rely on their learned representations. CLUE addresses this gap by converting the VLM's cross-modal attention into an explicit, spatially grounded signal for deciding when to ask. We extract text to image attention maps and pass them to a lightweight CNN to detect referential ambiguity, while a LoRA fine-tuned decoder conducts the dialog and emits grounding location tokens. We train on a real-world interactive dataset for IVG, and a mixed ambiguity set for the detector. With InViG-only supervision, our model surpasses a state-of-the-art method while using parameter-efficient fine-tuning. Similarly, the ambiguity detector outperforms prior baselines. Overall, CLUE turns the internal cross-modal attention of a VLM into an explicit, spatially grounded signal for deciding when to ask. The data and code are publicly available at: mouadabrini.github.io/clue
- Abstract(参考訳): ロボットの日常生活への統合が進むにつれ、人間とロボットの相互作用はより複雑で多面的になってきている。
この相互作用の重要な構成要素はインタラクティブ・ビジュアル・グラウンド(IVG)であり、ロボットは人間の意図を解釈しあいまいさを解決する必要がある。
既存のIVGモデルは一般に、学習した表現に暗黙的に依存するため、明確化の質問をいつ行うかを決定するメカニズムが欠如している。
CLUEはこのギャップに対処するため、VLMのクロスモーダルな注意を、いつ尋ねるかを決めるための明示的で空間的な信号に変換する。
画像アテンションマップにテキストを抽出し、それらを軽量CNNに渡して参照のあいまいさを検知する一方、LoRAの微調整デコーダがダイアログを実行し、接地位置トークンを出力する。
実世界のIVGのための対話型データセットと、検出器のための混合曖昧性セットをトレーニングする。
InViGのみの監視では、パラメータ効率の良い微調整をしながら最先端の手法を超越する。
同様に、あいまいさ検出器は以前のベースラインよりも優れている。
全体として、CLUEはVLMの内部の横断的注意を、いつ尋ねるかを決めるための明示的で空間的な信号に変える。
データとコードは、mouadabrini.github.io/clueで公開されています。
関連論文リスト
- Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。
2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。
本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:01:31Z) - Real-Time Human-Robot Interaction Intent Detection Using RGB-based Pose and Emotion Cues with Cross-Camera Model Generalization [0.8839687029212673]
公共空間におけるサービスロボットは、自然な相互作用のための人間の行動意図をリアルタイムに理解する必要がある。
モノクラーRGBビデオから抽出した2次元骨格ポーズと顔の感情特徴を融合したフレーム精度の人-ロボットインタラクション意図検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-18T08:44:22Z) - Take That for Me: Multimodal Exophora Resolution with Interactive Questioning for Ambiguous Out-of-View Instructions [6.763690463901024]
生活支援ロボットは、実証者を含むあいまいな言葉の指示を解釈しなければならない。
既存のエクソノラ分解能のアプローチは、視覚データに依存している。
音声ソースのローカライゼーション(SSL)、セマンティックマッピング、視覚言語モデル(VLM)、対話型質問機能を活用したマルチモーダル・エクソノラ解決フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-22T07:09:06Z) - TransforMerger: Transformer-based Voice-Gesture Fusion for Robust Human-Robot Communication [1.3812010983144802]
本稿では,トランスフォーマーモデルについて紹介する。トランスフォーマーは,解答音声とジェスチャー入力に基づくロボット操作のための構造化された動作指令を推論するトランスフォーマーモデルである。
我々のアプローチは、マルチモーダルデータを単一の統一文にマージし、言語モデルで処理する。
シミュレーションおよび実世界の実験において,TransforMergerの評価を行い,ノイズや不一致,情報不足に対するロバスト性を実証した。
論文 参考訳(メタデータ) (2025-04-02T13:15:59Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z) - VAGUE: Visual Contexts Clarify Ambiguous Expressions [26.190504250419547]
VAGUEは、意図の視覚的コンテキストを統合するマルチモーダルAIシステムの能力を評価するベンチマークである。
我々の実験によると、既存のマルチモーダルAIモデルは話者の真の意図を推測するのに苦労している。
失敗事例の分析は、現在のモデルが視覚的なシーンにおける表面的相関と真の意図を区別できないことを示す。
論文 参考訳(メタデータ) (2024-11-21T14:01:42Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。