論文の概要: Voila-A: Aligning Vision-Language Models with User's Gaze Attention
- arxiv url: http://arxiv.org/abs/2401.09454v1
- Date: Fri, 22 Dec 2023 17:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 09:29:15.696426
- Title: Voila-A: Aligning Vision-Language Models with User's Gaze Attention
- Title(参考訳): Voila-A: ユーザの視線を意識した視覚言語モデル
- Authors: Kun Yan, Lei Ji, Zeyu Wang, Yuntao Wang, Nan Duan, Shuai Ma
- Abstract要約: 視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
- 参考スコア(独自算出の注目度): 56.755993500556734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the integration of vision and language understanding has led
to significant advancements in artificial intelligence, particularly through
Vision-Language Models (VLMs). However, existing VLMs face challenges in
handling real-world applications with complex scenes and multiple objects, as
well as aligning their focus with the diverse attention patterns of human
users. In this paper, we introduce gaze information, feasibly collected by AR
or VR devices, as a proxy for human attention to guide VLMs and propose a novel
approach, Voila-A, for gaze alignment to enhance the interpretability and
effectiveness of these models in real-world applications. First, we collect
hundreds of minutes of gaze data to demonstrate that we can mimic human gaze
modalities using localized narratives. We then design an automatic data
annotation pipeline utilizing GPT-4 to generate the VOILA-COCO dataset.
Additionally, we innovate the Voila Perceiver modules to integrate gaze
information into VLMs while preserving their pretrained knowledge. We evaluate
Voila-A using a hold-out validation set and a newly collected VOILA-GAZE
Testset, which features real-life scenarios captured with a gaze-tracking
device. Our experimental results demonstrate that Voila-A significantly
outperforms several baseline models. By aligning model attention with human
gaze patterns, Voila-A paves the way for more intuitive, user-centric VLMs and
fosters engaging human-AI interaction across a wide range of applications.
- Abstract(参考訳): 近年、視覚と言語理解の統合は、人工知能、特にビジョン・ランゲージ・モデル(VLM)を通じて、大きな進歩をもたらした。
しかし、既存のvlmは複雑なシーンや複数のオブジェクトで現実世界のアプリケーションを扱うことや、その焦点を人間の様々な注意パターンに合わせることが困難に直面している。
本稿では,ar や vr デバイスで収集可能な視線情報について,vlm の人間的注意の指標として紹介するとともに,これらのモデルの現実の応用における解釈性と有効性を高めるために,視線アライメントのための新しいアプローチ voila-a を提案する。
まず、数百分間の視線データを収集し、局所的な物語を用いて人間の視線モダリティを模倣できることを実証する。
そして、GPT-4を利用して自動データアノテーションパイプラインを設計し、VOILA-COCOデータセットを生成する。
さらに,Voila Perceiverモジュールを改良し,事前学習した知識を保ちながら視線情報をVLMに統合する。
我々は,視線追跡装置を用いて実生活シナリオをキャプチャするVOILA-GAZEテストセットとホールドアウト検証セットを用いて,Voila-Aを評価する。
実験の結果,voila-aはいくつかのベースラインモデルを大きく上回っている。
モデルの注意を人間の視線パターンに合わせることで、Voila-Aはより直感的でユーザ中心のVLMを実現すると同時に、幅広いアプリケーションにわたる人間とAIのインタラクションを促進する。
関連論文リスト
- Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚的単語の概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - ViGoR: Improving Visual Grounding of Large Vision Language Models with
Fine-Grained Reward Modeling [37.19116437843919]
大規模視覚言語モデル(LVLM)は、実世界では前例のない推論能力を示している。
生成されたテキストは、しばしば視覚入力の不正確な接地に悩まされ、既存のシーン要素を幻覚させるなどのエラーが発生する。
我々は,LVLMの視覚的グラウンド化を大幅に向上させるために,細粒度報酬モデリングを利用した新しいフレームワークViGoRを提案する。
論文 参考訳(メタデータ) (2024-02-09T01:00:14Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - In the Eye of the Beholder: Gaze and Actions in First Person Video [30.54510882243602]
本研究では,ヘッドウーンカメラで撮影した映像の分析に基づいて,人が何をしているか,どこに見ているのかを共同で決定する課題に対処する。
私たちのデータセットには、ビデオ、視線追跡データ、ハンドマスク、アクションアノテーションが含まれています。
第一人物視における共同視線推定と行動認識のための新しい深層モデルを提案する。
論文 参考訳(メタデータ) (2020-05-31T22:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。