論文の概要: Beyond Average: Individualized Visual Scanpath Prediction
- arxiv url: http://arxiv.org/abs/2404.12235v2
- Date: Fri, 19 Apr 2024 02:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 12:13:31.930173
- Title: Beyond Average: Individualized Visual Scanpath Prediction
- Title(参考訳): Beyond Average: 個別化されたビジュアルスキャンパス予測
- Authors: Xianyu Chen, Ming Jiang, Qi Zhao,
- Abstract要約: 個別化されたスキャンパス予測(ISP)は、様々な視覚的タスクにおいて、異なる個人がどのように注意をシフトするかを正確に予測することを目的としている。
ISPはオブザーバのユニークな注意特性を特徴付け統合するためのオブザーバエンコーダ、オブザーバ中心の機能統合アプローチ、適応的な固定優先順位付け機構を備えている。
提案手法は,一般に異なるデータセット,モデルアーキテクチャ,視覚的タスクに適用可能であり,一般的なスキャンパスモデルを個別化するための包括的なツールを提供する。
- 参考スコア(独自算出の注目度): 20.384132849805003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how attention varies across individuals has significant scientific and societal impacts. However, existing visual scanpath models treat attention uniformly, neglecting individual differences. To bridge this gap, this paper focuses on individualized scanpath prediction (ISP), a new attention modeling task that aims to accurately predict how different individuals shift their attention in diverse visual tasks. It proposes an ISP method featuring three novel technical components: (1) an observer encoder to characterize and integrate an observer's unique attention traits, (2) an observer-centric feature integration approach that holistically combines visual features, task guidance, and observer-specific characteristics, and (3) an adaptive fixation prioritization mechanism that refines scanpath predictions by dynamically prioritizing semantic feature maps based on individual observers' attention traits. These novel components allow scanpath models to effectively address the attention variations across different observers. Our method is generally applicable to different datasets, model architectures, and visual tasks, offering a comprehensive tool for transforming general scanpath models into individualized ones. Comprehensive evaluations using value-based and ranking-based metrics verify the method's effectiveness and generalizability.
- Abstract(参考訳): 個人間で注意がどのように異なるかを理解することは、科学的、社会的影響が大きい。
しかし、既存の視覚スキャンパスモデルは、個々の違いを無視して、注意を均一に扱う。
このギャップを埋めるために,多様な視覚的タスクにおいて,異なる個人がどのように注意をシフトするかを正確に予測することを目的とした,新たな注意モデルタスクである個別スキャンパス予測(ISP)に焦点を当てた。
1)観察者のユニークな注意特徴を特徴付け統合するオブザーバエンコーダ,(2)視覚的特徴,タスクガイダンス,オブザーバ特有の特徴を一元的に組み合わせたオブザーバ中心の機能統合アプローチ,(3)観察者の注意特徴に基づいて動的にセマンティック特徴マップを優先順位付けすることでスキャンパス予測を洗練する適応的修正優先順位付け機構,の3つの新しい技術コンポーネントを特徴とするISP手法を提案する。
これらの新しいコンポーネントにより、スキャンパスモデルは、異なるオブザーバ間での注意変動に効果的に対処できる。
提案手法は,一般に異なるデータセット,モデルアーキテクチャ,視覚的タスクに適用可能であり,一般的なスキャンパスモデルを個別化するための包括的なツールを提供する。
値ベースおよびランキングベースのメトリクスを用いた総合的な評価は、その方法の有効性と一般化可能性を検証する。
関連論文リスト
- Unified Dynamic Scanpath Predictors Outperform Individually Trained Neural Models [18.327960366321655]
本研究では,ビデオ中のスキャンパスを予測するために,ディープラーニングに基づくソーシャルキュー統合モデルを構築した。
我々は,自由視聴条件下で観察された動的な社会シーンの視線に対するアプローチを評価した。
結果は、すべての観察者のスキャンパスに基づいて訓練された単一の統一モデルが、個別に訓練されたモデルよりも同等以上のパフォーマンスを示すことを示している。
論文 参考訳(メタデータ) (2024-05-05T13:15:11Z) - ALOHA: from Attention to Likes -- a unified mOdel for understanding HumAn responses to diverse visual content [12.281060227170792]
ALOHA - 人間の反応を注目から好意へ理解するための統一モデルを提案する。
ALOHAは、アテンションヒートマップ、スキャンパス、視聴順序などの異なる人間の反応を予測し、主観的評価/評価を行う。
潜在的なアプリケーションには、UI/デザイン/イメージの有効性に関する即時フィードバックの提供や、視覚コンテンツ生成をさらに最適化するための報酬モデルとしての役割などが含まれる。
論文 参考訳(メタデータ) (2023-12-15T19:57:07Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - An Inter-observer consistent deep adversarial training for visual
scanpath prediction [66.46953851227454]
本稿では,軽量なディープニューラルネットワークによるスキャンパス予測のための,サーバ間一貫した対向トレーニング手法を提案する。
我々は、最先端の手法に関して、我々のアプローチの競争力を示す。
論文 参考訳(メタデータ) (2022-11-14T13:22:29Z) - Self-Attention Neural Bag-of-Features [103.70855797025689]
我々は最近導入された2D-Attentionの上に構築し、注意学習方法論を再構築する。
本稿では,関連情報を強調した2次元目視マスクを学習する機能・時間的アテンション機構を提案する。
論文 参考訳(メタデータ) (2022-01-26T17:54:14Z) - Scanpath Prediction on Information Visualisations [19.591855190022667]
本稿では,情報視覚化における視覚的満足度とスキャンパスの予測を学習するモデルを提案する。
一般的なMASSVISデータセット上で,様々な情報可視化要素に対する視線行動の詳細な解析を行う。
論文 参考訳(メタデータ) (2021-12-04T13:59:52Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Classifying Eye-Tracking Data Using Saliency Maps [8.524684315458245]
本稿では,視線追跡データの自動的,定量的分類のための視覚情報に基づく特徴抽出手法を提案する。
サリエンシの振幅、類似度、相違点を対応するアイフィクスマップと比較すると、視覚追跡データを識別するために識別的特徴を生成するために有効に活用される情報の余分な次元が得られる。
論文 参考訳(メタデータ) (2020-10-24T15:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。