論文の概要: Voila-A: Aligning Vision-Language Models with User's Gaze Attention
- arxiv url: http://arxiv.org/abs/2401.09454v1
- Date: Fri, 22 Dec 2023 17:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 09:29:15.696426
- Title: Voila-A: Aligning Vision-Language Models with User's Gaze Attention
- Title(参考訳): Voila-A: ユーザの視線を意識した視覚言語モデル
- Authors: Kun Yan, Lei Ji, Zeyu Wang, Yuntao Wang, Nan Duan, Shuai Ma
- Abstract要約: 視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
- 参考スコア(独自算出の注目度): 56.755993500556734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the integration of vision and language understanding has led
to significant advancements in artificial intelligence, particularly through
Vision-Language Models (VLMs). However, existing VLMs face challenges in
handling real-world applications with complex scenes and multiple objects, as
well as aligning their focus with the diverse attention patterns of human
users. In this paper, we introduce gaze information, feasibly collected by AR
or VR devices, as a proxy for human attention to guide VLMs and propose a novel
approach, Voila-A, for gaze alignment to enhance the interpretability and
effectiveness of these models in real-world applications. First, we collect
hundreds of minutes of gaze data to demonstrate that we can mimic human gaze
modalities using localized narratives. We then design an automatic data
annotation pipeline utilizing GPT-4 to generate the VOILA-COCO dataset.
Additionally, we innovate the Voila Perceiver modules to integrate gaze
information into VLMs while preserving their pretrained knowledge. We evaluate
Voila-A using a hold-out validation set and a newly collected VOILA-GAZE
Testset, which features real-life scenarios captured with a gaze-tracking
device. Our experimental results demonstrate that Voila-A significantly
outperforms several baseline models. By aligning model attention with human
gaze patterns, Voila-A paves the way for more intuitive, user-centric VLMs and
fosters engaging human-AI interaction across a wide range of applications.
- Abstract(参考訳): 近年、視覚と言語理解の統合は、人工知能、特にビジョン・ランゲージ・モデル(VLM)を通じて、大きな進歩をもたらした。
しかし、既存のvlmは複雑なシーンや複数のオブジェクトで現実世界のアプリケーションを扱うことや、その焦点を人間の様々な注意パターンに合わせることが困難に直面している。
本稿では,ar や vr デバイスで収集可能な視線情報について,vlm の人間的注意の指標として紹介するとともに,これらのモデルの現実の応用における解釈性と有効性を高めるために,視線アライメントのための新しいアプローチ voila-a を提案する。
まず、数百分間の視線データを収集し、局所的な物語を用いて人間の視線モダリティを模倣できることを実証する。
そして、GPT-4を利用して自動データアノテーションパイプラインを設計し、VOILA-COCOデータセットを生成する。
さらに,Voila Perceiverモジュールを改良し,事前学習した知識を保ちながら視線情報をVLMに統合する。
我々は,視線追跡装置を用いて実生活シナリオをキャプチャするVOILA-GAZEテストセットとホールドアウト検証セットを用いて,Voila-Aを評価する。
実験の結果,voila-aはいくつかのベースラインモデルを大きく上回っている。
モデルの注意を人間の視線パターンに合わせることで、Voila-Aはより直感的でユーザ中心のVLMを実現すると同時に、幅広いアプリケーションにわたる人間とAIのインタラクションを促進する。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - In the Eye of the Beholder: Gaze and Actions in First Person Video [30.54510882243602]
本研究では,ヘッドウーンカメラで撮影した映像の分析に基づいて,人が何をしているか,どこに見ているのかを共同で決定する課題に対処する。
私たちのデータセットには、ビデオ、視線追跡データ、ハンドマスク、アクションアノテーションが含まれています。
第一人物視における共同視線推定と行動認識のための新しい深層モデルを提案する。
論文 参考訳(メタデータ) (2020-05-31T22:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。