論文の概要: Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation
- arxiv url: http://arxiv.org/abs/2511.08971v1
- Date: Thu, 13 Nov 2025 01:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.332196
- Title: Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation
- Title(参考訳): Plug-and-Play Clarifier:エゴセントリックな直観的曖昧化のためのゼロショットマルチモーダルフレームワーク
- Authors: Sicheng Yang, Yukai Huang, Weitong Cai, Shitong Sun, You He, Jiankang Deng, Hang Zhang, Jifei Song, Zhensong Zhang,
- Abstract要約: エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
- 参考スコア(独自算出の注目度): 60.63465682731118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of egocentric AI agents is fundamentally limited by multimodal intent ambiguity. This challenge arises from a combination of underspecified language, imperfect visual data, and deictic gestures, which frequently leads to task failure. Existing monolithic Vision-Language Models (VLMs) struggle to resolve these multimodal ambiguous inputs, often failing silently or hallucinating responses. To address these ambiguities, we introduce the Plug-and-Play Clarifier, a zero-shot and modular framework that decomposes the problem into discrete, solvable sub-tasks. Specifically, our framework consists of three synergistic modules: (1) a text clarifier that uses dialogue-driven reasoning to interactively disambiguate linguistic intent, (2) a vision clarifier that delivers real-time guidance feedback, instructing users to adjust their positioning for improved capture quality, and (3) a cross-modal clarifier with grounding mechanism that robustly interprets 3D pointing gestures and identifies the specific objects users are pointing to. Extensive experiments demonstrate that our framework improves the intent clarification performance of small language models (4--8B) by approximately 30%, making them competitive with significantly larger counterparts. We also observe consistent gains when applying our framework to these larger models. Furthermore, our vision clarifier increases corrective guidance accuracy by over 20%, and our cross-modal clarifier improves semantic answer accuracy for referential grounding by 5%. Overall, our method provides a plug-and-play framework that effectively resolves multimodal ambiguity and significantly enhances user experience in egocentric interaction.
- Abstract(参考訳): エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
この課題は、不特定言語、不完全な視覚データ、難解なジェスチャーの組み合わせから生じ、しばしばタスクの失敗につながる。
既存のモノリシック・ビジョン・ランゲージ・モデル(VLM)は、これらの多モーダルなあいまいな入力を解決するのに苦労している。
これらの曖昧性に対処するため、ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
具体的には、3つの相乗的モジュールからなる。(1)対話型推論による言語意図の曖昧化,(2)リアルタイムのガイダンスフィードバックの提供,(3)ユーザに対してキャプチャ品質の向上のために位置調整の指示,(3)3Dのジェスチャーを頑健に解釈し,ユーザが指している特定の対象を識別する基盤機構を備えたクロスモーダル・クラリファイア。
大規模な実験により、我々のフレームワークは、小さな言語モデル(4~8B)の意図的明確化性能を約30%向上させ、より大規模なモデルと競合することを示した。
これらの大きなモデルにフレームワークを適用する際にも、一貫した利得が観察されます。
さらに,視力判定器の精度を20%以上向上させ,参照接地における意味応答精度を5%以上向上させる。
本手法は,マルチモーダルなあいまいさを効果的に解決し,エゴセントリックなインタラクションにおけるユーザエクスペリエンスを著しく向上するプラグイン・アンド・プレイ・フレームワークを提供する。
関連論文リスト
- Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models [65.23999399834638]
DeceptionDecodedは,信頼に値する参照記事に基づく12,000のイメージキャプチャペアのベンチマークである。
データセットは、誤解を招くケースと、誤解を招くケースの両方をキャプチャし、視覚的およびテキスト的モダリティにわたって操作する。
インテント中心の3つのタスク – 意図の検出を誤解させる、ソースの属性を誤解させる、創造的欲求推論 – をサポートしている。
論文 参考訳(メタデータ) (2025-05-21T13:14:32Z) - Intent Representation Learning with Large Language Model for Recommendation [11.118517297006894]
モデルに依存しないフレームワークIRLLRec(Intent Representation Learning with Large Language Model)を提案する。
具体的には、IRLLRecはマルチモーダルなインテント表現を学ぶためにデュアルトウワーアーキテクチャを採用している。
テキストと対話に基づく意図をよりよく一致させるため、融合した意図表現を教師が学習するためにモーメント蒸留を用いる。
論文 参考訳(メタデータ) (2025-02-05T16:08:05Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning [50.1035273069458]
音声言語理解(SLU)はタスク指向対話システムにおける中核的なタスクである。
本稿では,発話レベル,スロットレベル,単語レベルを含む3段階のコントラスト学習を実現するためのマルチレベルMMCLフレームワークを提案する。
本フレームワークは,2つの公開マルチインテリジェントSLUデータセットに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2024-05-31T14:34:23Z) - Can Your Model Tell a Negation from an Implicature? Unravelling
Challenges With Intent Encoders [24.42199777529863]
大きな言語モデル(LLM)は、プロンプトを使って埋め込み空間のセマンティクスを調整できる埋め込みを可能にする。
従来の評価ベンチマークは、セマンティック理解に関連するギャップを特に計測しないタスクメトリクスのみに依存しています。
インテント埋め込みモデルのより包括的なビューを提供するインテントセマンティックツールキットを提案する。
論文 参考訳(メタデータ) (2024-03-07T08:32:17Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。