論文の概要: GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths
- arxiv url: http://arxiv.org/abs/2408.02788v1
- Date: Mon, 5 Aug 2024 19:11:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 15:48:36.996979
- Title: GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths
- Title(参考訳): GazeXplain: ビジュアルスキャンパスの自然言語説明を予測する学習
- Authors: Xianyu Chen, Ming Jiang, Qi Zhao,
- Abstract要約: 本稿では,視覚スキャンパス予測と説明の新しい研究であるGazeXplainを紹介する。
これには、視線追跡データセットにまたがる修正のための自然言語の説明が注釈付けされる。
多様な視線追跡データセットの実験は、スキャンパス予測と説明の両方においてGazeXplainの有効性を示す。
- 参考スコア(独自算出の注目度): 20.384132849805003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While exploring visual scenes, humans' scanpaths are driven by their underlying attention processes. Understanding visual scanpaths is essential for various applications. Traditional scanpath models predict the where and when of gaze shifts without providing explanations, creating a gap in understanding the rationale behind fixations. To bridge this gap, we introduce GazeXplain, a novel study of visual scanpath prediction and explanation. This involves annotating natural-language explanations for fixations across eye-tracking datasets and proposing a general model with an attention-language decoder that jointly predicts scanpaths and generates explanations. It integrates a unique semantic alignment mechanism to enhance the consistency between fixations and explanations, alongside a cross-dataset co-training approach for generalization. These novelties present a comprehensive and adaptable solution for explainable human visual scanpath prediction. Extensive experiments on diverse eye-tracking datasets demonstrate the effectiveness of GazeXplain in both scanpath prediction and explanation, offering valuable insights into human visual attention and cognitive processes.
- Abstract(参考訳): 視覚的なシーンを探索している間、人間のスキャンパスは、その基盤となる注意プロセスによって駆動される。
視覚スキャンパスを理解することは、様々なアプリケーションに不可欠である。
従来のスキャンパスモデルは、説明を与えずに視線の変化の場所とタイミングを予測し、固定の背景にある理論的根拠を理解するギャップを生じさせる。
このギャップを埋めるために、視覚スキャンパス予測と説明の新しい研究であるGazeXplainを紹介する。
これには、視線追跡データセット全体にわたる修正のための自然言語説明の注釈付けと、スキャンパスを共同で予測し、説明を生成する注目言語デコーダによる一般的なモデルの提案が含まれる。
ユニークなセマンティックアライメント機構を統合して、一般化のためのクロスデータセットコトレーニングアプローチとともに、固定と説明の整合性を高める。
これらの新規性は、説明可能なヒト視覚スキャンパス予測のための包括的で適応可能なソリューションを提供する。
多様な視線追跡データセットに関する大規模な実験は、スキャンパス予測と説明の両方において、GazeXplainの有効性を示し、人間の視覚的注意と認知プロセスに関する貴重な洞察を提供する。
関連論文リスト
- Caption-Driven Explorations: Aligning Image and Text Embeddings through Human-Inspired Foveated Vision [3.3295510777293837]
本稿では,キャプションタスク中の人間の注意力を調べるために,キャプションとクリックコンセント画像探索を備えたデータセットであるCapMIT1003を紹介する。
また、NevaClipは、CLIPモデルとNeVAアルゴリズムを組み合わせることで、視覚スキャンパスを予測するゼロショット方式である。
論文 参考訳(メタデータ) (2024-08-19T12:41:46Z) - Look Hear: Gaze Prediction for Speech-directed Human Attention [49.81718760025951]
本研究は、人物が画像を見て、参照表現を聴いているときの注意の漸進的な予測に焦点を当てた。
我々は,参照表現において各単語が引き起こす人間の定着を予測できるリファラルトランスフォーマーモデル(ART)を開発した。
定量的および定性的な分析では、ARTはスキャンパス予測の既存の手法よりも優れているだけでなく、いくつかの人間の注意パターンを捉えているように見える。
論文 参考訳(メタデータ) (2024-07-28T22:35:08Z) - Beyond Average: Individualized Visual Scanpath Prediction [20.384132849805003]
個別化されたスキャンパス予測(ISP)は、様々な視覚的タスクにおいて、異なる個人がどのように注意をシフトするかを正確に予測することを目的としている。
ISPはオブザーバのユニークな注意特性を特徴付け統合するためのオブザーバエンコーダ、オブザーバ中心の機能統合アプローチ、適応的な固定優先順位付け機構を備えている。
提案手法は,一般に異なるデータセット,モデルアーキテクチャ,視覚的タスクに適用可能であり,一般的なスキャンパスモデルを個別化するための包括的なツールを提供する。
論文 参考訳(メタデータ) (2024-04-18T14:51:42Z) - Contrastive Language-Image Pretrained Models are Zero-Shot Human
Scanpath Predictors [2.524526956420465]
CapMIT1003は、キャプションタスク中に収集されたキャプションとクリックコンテンツ画像のデータベースである。
NevaClipは、視覚スキャンパスを予測する新しいゼロショット手法である。
論文 参考訳(メタデータ) (2023-05-21T07:24:50Z) - Semantic Prompt for Few-Shot Image Recognition [76.68959583129335]
本稿では,数ショット学習のための新しいセマンティック・プロンプト(SP)手法を提案する。
提案手法は,1ショットの学習精度を平均3.67%向上させることにより,有望な結果が得られる。
論文 参考訳(メタデータ) (2023-03-24T16:32:19Z) - An Inter-observer consistent deep adversarial training for visual
scanpath prediction [66.46953851227454]
本稿では,軽量なディープニューラルネットワークによるスキャンパス予測のための,サーバ間一貫した対向トレーニング手法を提案する。
我々は、最先端の手法に関して、我々のアプローチの競争力を示す。
論文 参考訳(メタデータ) (2022-11-14T13:22:29Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Learnable Visual Words for Interpretable Image Recognition [70.85686267987744]
モデル予測動作を2つの新しいモジュールで解釈するLearable Visual Words (LVW)を提案する。
意味的な視覚的単語学習は、カテゴリ固有の制約を緩和し、異なるカテゴリ間で共有される一般的な視覚的単語を可能にする。
6つの視覚的ベンチマーク実験により,提案したLVWの精度とモデル解釈における優れた効果が示された。
論文 参考訳(メタデータ) (2022-05-22T03:24:45Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Deep semantic gaze embedding and scanpath comparison for expertise
classification during OPT viewing [6.700983301090583]
本稿では,畳み込みニューラルネットワーク(CNN)を用いた視線スキャンパス比較手法を提案する。
筆者らのアプローチでは,画像意味論を取り入れたまま,93%の精度で初級者から専門家を識別することができた。
論文 参考訳(メタデータ) (2020-03-31T07:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。