Fugu-MT 論文翻訳(概要): Voila-A: Aligning Vision-Language Models with User's Gaze Attention

論文の概要: Voila-A: Aligning Vision-Language Models with User's Gaze Attention

arxiv url: http://arxiv.org/abs/2401.09454v1
Date: Fri, 22 Dec 2023 17:34:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 09:29:15.696426
Title: Voila-A: Aligning Vision-Language Models with User's Gaze Attention
Title（参考訳）: Voila-A: ユーザの視線を意識した視覚言語モデル
Authors: Kun Yan, Lei Ji, Zeyu Wang, Yuntao Wang, Nan Duan, Shuai Ma
Abstract要約: 視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
参考スコア（独自算出の注目度）: 56.755993500556734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, the integration of vision and language understanding has led to significant advancements in artificial intelligence, particularly through Vision-Language Models (VLMs). However, existing VLMs face challenges in handling real-world applications with complex scenes and multiple objects, as well as aligning their focus with the diverse attention patterns of human users. In this paper, we introduce gaze information, feasibly collected by AR or VR devices, as a proxy for human attention to guide VLMs and propose a novel approach, Voila-A, for gaze alignment to enhance the interpretability and effectiveness of these models in real-world applications. First, we collect hundreds of minutes of gaze data to demonstrate that we can mimic human gaze modalities using localized narratives. We then design an automatic data annotation pipeline utilizing GPT-4 to generate the VOILA-COCO dataset. Additionally, we innovate the Voila Perceiver modules to integrate gaze information into VLMs while preserving their pretrained knowledge. We evaluate Voila-A using a hold-out validation set and a newly collected VOILA-GAZE Testset, which features real-life scenarios captured with a gaze-tracking device. Our experimental results demonstrate that Voila-A significantly outperforms several baseline models. By aligning model attention with human gaze patterns, Voila-A paves the way for more intuitive, user-centric VLMs and fosters engaging human-AI interaction across a wide range of applications.
Abstract（参考訳）: 近年、視覚と言語理解の統合は、人工知能、特にビジョン・ランゲージ・モデル(VLM)を通じて、大きな進歩をもたらした。しかし、既存のvlmは複雑なシーンや複数のオブジェクトで現実世界のアプリケーションを扱うことや、その焦点を人間の様々な注意パターンに合わせることが困難に直面している。本稿では,ar や vr デバイスで収集可能な視線情報について,vlm の人間的注意の指標として紹介するとともに,これらのモデルの現実の応用における解釈性と有効性を高めるために,視線アライメントのための新しいアプローチ voila-a を提案する。まず、数百分間の視線データを収集し、局所的な物語を用いて人間の視線モダリティを模倣できることを実証する。そして、GPT-4を利用して自動データアノテーションパイプラインを設計し、VOILA-COCOデータセットを生成する。さらに,Voila Perceiverモジュールを改良し,事前学習した知識を保ちながら視線情報をVLMに統合する。我々は,視線追跡装置を用いて実生活シナリオをキャプチャするVOILA-GAZEテストセットとホールドアウト検証セットを用いて,Voila-Aを評価する。実験の結果,voila-aはいくつかのベースラインモデルを大きく上回っている。モデルの注意を人間の視線パターンに合わせることで、Voila-Aはより直感的でユーザ中心のVLMを実現すると同時に、幅広いアプリケーションにわたる人間とAIのインタラクションを促進する。

関連論文リスト

Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文参考訳（メタデータ） (2025-03-08T01:22:10Z)
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文参考訳（メタデータ） (2024-12-13T18:40:51Z)
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文参考訳（メタデータ） (2024-06-24T17:59:42Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文参考訳（メタデータ） (2024-03-12T14:58:52Z)
Towards Zero-shot Human-Object Interaction Detection via Vision-Language Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文参考訳（メタデータ） (2024-03-12T02:07:23Z)
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文参考訳（メタデータ） (2024-03-05T18:08:45Z)
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-08-31T06:53:55Z)
Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。 VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文参考訳（メタデータ） (2023-05-28T17:53:09Z)
In the Eye of the Beholder: Gaze and Actions in First Person Video [30.54510882243602]
本研究では,ヘッドウーンカメラで撮影した映像の分析に基づいて,人が何をしているか,どこに見ているのかを共同で決定する課題に対処する。私たちのデータセットには、ビデオ、視線追跡データ、ハンドマスク、アクションアノテーションが含まれています。第一人物視における共同視線推定と行動認識のための新しい深層モデルを提案する。
論文参考訳（メタデータ） (2020-05-31T22:06:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。