論文の概要: Resolving Ambiguity in Gaze-Facilitated Visual Assistant Interaction Paradigm
- arxiv url: http://arxiv.org/abs/2509.21980v1
- Date: Fri, 26 Sep 2025 07:02:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.256446
- Title: Resolving Ambiguity in Gaze-Facilitated Visual Assistant Interaction Paradigm
- Title(参考訳): Gaze-Facilitated Visual Assistant Interaction Paradigmにおける曖昧さの解消
- Authors: Zeyu Wang, Baiyu Chen, Kun Yan, Hongjing Piao, Hao Xue, Flora D. Salim, Yuanchun Shi, Yuntao Wang,
- Abstract要約: 実世界の応用におけるモデルの有効性を高めるために,視線情報を活用する新しい手法であるGLARIFYを導入する。
本研究では,ユーザの視線パターンのノイズ特性を示すために,視線モダリティを用いた数百のサンプルを解析した。
GLARIFYはベースラインを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 36.752693539572086
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the rise in popularity of smart glasses, users' attention has been integrated into Vision-Language Models (VLMs) to streamline multi-modal querying in daily scenarios. However, leveraging gaze data to model users' attention may introduce ambiguity challenges: (1) users' verbal questions become ambiguous by using pronouns or skipping context, (2) humans' gaze patterns can be noisy and exhibit complex spatiotemporal relationships with their spoken questions. Previous works only consider single image as visual modality input, failing to capture the dynamic nature of the user's attention. In this work, we introduce GLARIFY, a novel method to leverage spatiotemporal gaze information to enhance the model's effectiveness in real-world applications. Initially, we analyzed hundreds of querying samples with the gaze modality to demonstrate the noisy nature of users' gaze patterns. We then utilized GPT-4o to design an automatic data synthesis pipeline to generate the GLARIFY-Ambi dataset, which includes a dedicated chain-of-thought (CoT) process to handle noisy gaze patterns. Finally, we designed a heatmap module to incorporate gaze information into cutting-edge VLMs while preserving their pretrained knowledge. We evaluated GLARIFY using a hold-out test set. Experiments demonstrate that GLARIFY significantly outperforms baselines. By robustly aligning VLMs with human attention, GLARIFY paves the way for a usable and intuitive interaction paradigm with a visual assistant.
- Abstract(参考訳): スマートグラスの普及に伴い、ユーザの関心はビジョンランゲージモデル(VLM)に統合され、日々のシナリオにおけるマルチモーダルクエリを合理化している。
しかし, 利用者の注意をモデル化するために視線データを活用することは, 1) 代名詞やスキップの文脈を用いて, ユーザの言語的質問があいまいになり, 2) 人間の視線パターンはうるさく, 発話された質問と複雑な時空間的関係を示す。
従来の作業では、単一のイメージを視覚的モダリティ入力としてのみ考慮しており、ユーザの注意の動的な性質を捉えていない。
本研究では,実世界の応用におけるモデルの有効性を高めるために,時空間の視線情報を活用する新しい手法であるGLARIFYを紹介する。
当初,利用者の視線パターンのうるさい性質を示すために,数百の照会サンプルを視線モダリティで分析した。
そして、GPT-4oを用いて自動データ合成パイプラインを設計してGLARIFY-Ambiデータセットを生成する。
最後に,事前学習した知識を保ちながら,視線情報を最先端のVLMに組み込むヒートマップモジュールを設計した。
GLARIFYをホールドアウトテストセットを用いて評価した。
GLARIFYはベースラインを著しく上回ることを示した。
GLARIFYは、VLMを人間の注意にしっかりと合わせることで、視覚アシスタントと使いやすく直感的なインタラクションパラダイムの道を開く。
関連論文リスト
- In the Eye of MLLM: Benchmarking Egocentric Video Intent Understanding with Gaze-Guided Prompting [12.567763863700058]
EgoGazeVQAは、MLLMによって生成され、ヒトアノテータによって精製される視線ベースのQAペアである。
実験の結果,既存のMLLMはユーザの意図を正確に解釈するのに苦労していることがわかった。
視線誘導型インテントプロンプト法は,空間的,時間的,意図に関連した手がかりを統合することにより,性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-09-09T07:11:56Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - G-VOILA: Gaze-Facilitated Information Querying in Daily Scenarios [36.5550753978585]
本稿では、G-VOILAという、新しい視線対応情報クエリーパラダイムを提案する。
G-VOILAは、より直感的なクエリプロセスを容易にするために、ユーザの視線、視野、音声ベースの自然言語クエリを相乗化する。
論文 参考訳(メタデータ) (2024-05-13T11:24:53Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models [53.337728969143086]
レコメンデーションシステムは、クリックやレビューのようなユーザとイテムのインタラクションを利用して表現を学習する。
従来の研究では、様々な側面や意図にまたがるユーザの嗜好をモデル化することで、推奨精度と解釈可能性を改善する。
そこで本研究では,意味的側面と認識的相互作用を明らかにするためのチェーンベースのプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-12-26T15:44:09Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。