論文の概要: Visual Attention Graph
- arxiv url: http://arxiv.org/abs/2503.08531v1
- Date: Tue, 11 Mar 2025 15:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:17:36.752117
- Title: Visual Attention Graph
- Title(参考訳): Visual Attention Graph
- Authors: Kai-Fu Yang, Yong-Jie Li,
- Abstract要約: 本研究では,視覚的満足度とスキャンパスを同時に符号化するアテンショングラフという新しいアテンション表現を提案する。
注目グラフでは、意味に基づくスキャンパスはグラフ上の経路で定義され、各ノード上の固定密度を計算することでオブジェクトの正当性を得ることができる。
- 参考スコア(独自算出の注目度): 21.860357478331107
- License:
- Abstract: Visual attention plays a critical role when our visual system executes active visual tasks by interacting with the physical scene. However, how to encode the visual object relationship in the psychological world of our brain deserves to be explored. In the field of computer vision, predicting visual fixations or scanpaths is a usual way to explore the visual attention and behaviors of human observers when viewing a scene. Most existing methods encode visual attention using individual fixations or scanpaths based on the raw gaze shift data collected from human observers. This may not capture the common attention pattern well, because without considering the semantic information of the viewed scene, raw gaze shift data alone contain high inter- and intra-observer variability. To address this issue, we propose a new attention representation, called Attention Graph, to simultaneously code the visual saliency and scanpath in a graph-based representation and better reveal the common attention behavior of human observers. In the attention graph, the semantic-based scanpath is defined by the path on the graph, while saliency of objects can be obtained by computing fixation density on each node. Systemic experiments demonstrate that the proposed attention graph combined with our new evaluation metrics provides a better benchmark for evaluating attention prediction methods. Meanwhile, extra experiments demonstrate the promising potentials of the proposed attention graph in assessing human cognitive states, such as autism spectrum disorder screening and age classification.
- Abstract(参考訳): 視覚系が身体的シーンと相互作用してアクティブな視覚タスクを実行する場合、視覚的注意が重要な役割を果たす。
しかし、私たちの脳の心理的世界における視覚的物体の関係をエンコードする方法は、調査すべきである。
コンピュータビジョンの分野では、視覚的固定やスキャンパスの予測は、シーンを見るときの人間の観察者の視覚的注意と振る舞いを探索する一般的な方法である。
既存のほとんどの方法は、人間の観察者から収集された生の視線シフトデータに基づいて、個々の固定やスキャンパスを用いて視覚的注意を符号化する。
これは、視聴シーンのセマンティック情報を考慮せずに、生の視線シフトデータだけでは、高いサーバ間およびサーバ内変動を含むため、一般的な注意パターンをうまく捉えない可能性がある。
この問題に対処するため,我々はアテンショングラフ(Attention Graph)と呼ばれる新しいアテンション表現を提案する。
注目グラフでは、意味に基づくスキャンパスはグラフ上の経路で定義され、各ノード上の固定密度を計算することでオブジェクトの正当性を得ることができる。
システム実験により,提案したアテンショングラフと新たな評価指標を組み合わせることで,アテンション予測手法を評価するためのより良いベンチマークが得られた。
一方、自閉症スペクトラムのスクリーニングや年齢分類など、人間の認知状態を評価する上で、提案した注意グラフの有望な可能性を示す実験も行われた。
関連論文リスト
- GEM: Context-Aware Gaze EstiMation with Visual Search Behavior Matching for Chest Radiograph [32.1234295417225]
本稿では,放射線科医が収集した視線データを用いて視覚的な探索行動パターンをシミュレートする,文脈対応型Gaze EstiMation (GEM) ネットワークを提案する。
コンテキスト認識モジュール、視覚行動グラフ構築、視覚行動マッチングで構成される。
4つの公開データセットの実験は、既存の方法よりもGEMの方が優れていることを示している。
論文 参考訳(メタデータ) (2024-08-10T09:46:25Z) - GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths [20.384132849805003]
本稿では,視覚スキャンパス予測と説明の新しい研究であるGazeXplainを紹介する。
これには、視線追跡データセットにまたがる修正のための自然言語の説明が注釈付けされる。
多様な視線追跡データセットの実験は、スキャンパス予測と説明の両方においてGazeXplainの有効性を示す。
論文 参考訳(メタデータ) (2024-08-05T19:11:46Z) - OAT: Object-Level Attention Transformer for Gaze Scanpath Prediction [0.2796197251957245]
本稿では,OAT(Object-level Attention Transformer)を紹介する。
OATは人間のスキャンパスを予測し、散らかった邪魔者のシーンで対象物を検索する。
我々は、Amazonの書籍カバーデータセットと、収集したビジュアル検索のための新しいデータセットに基づいて、OATを評価した。
論文 参考訳(メタデータ) (2024-07-18T09:33:17Z) - Simulating Human Gaze with Neural Visual Attention [44.65733084492857]
我々は、下流の視覚課題のガイダンスをアテンション・モデリングに統合するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
我々は、生物学的に制約されたニューラルネットワークが、この目的のために訓練されることなく、人間の様のスキャンパスを生成することを観察する。
論文 参考訳(メタデータ) (2022-11-22T09:02:09Z) - An Inter-observer consistent deep adversarial training for visual
scanpath prediction [66.46953851227454]
本稿では,軽量なディープニューラルネットワークによるスキャンパス予測のための,サーバ間一貫した対向トレーニング手法を提案する。
我々は、最先端の手法に関して、我々のアプローチの競争力を示す。
論文 参考訳(メタデータ) (2022-11-14T13:22:29Z) - Behind the Machine's Gaze: Biologically Constrained Neural Networks
Exhibit Human-like Visual Attention [40.878963450471026]
トップダウン方式でビジュアル・スキャンパスを生成するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
提案手法は,人間の走査パスと類似性の観点から,最先端の非監視的注意モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:57:47Z) - Leveraging Human Selective Attention for Medical Image Analysis with
Limited Training Data [72.1187887376849]
選択的な注意機構は、注意散らしの存在を無視することで、認知システムがタスク関連視覚的手がかりに焦点を合わせるのに役立つ。
本稿では,医療画像解析タスクにおいて,小さなトレーニングデータを用いたガベージを利用したフレームワークを提案する。
本手法は腫瘍の3次元分割と2次元胸部X線分類において優れた性能を示す。
論文 参考訳(メタデータ) (2021-12-02T07:55:25Z) - Attention Mechanisms in Computer Vision: A Survey [75.6074182122423]
本稿では,コンピュータビジョンにおける様々な注意機構について概観する。
チャネルアテンション,空間アテンション,時間アテンション,分岐アテンションなど,アプローチによって分類する。
我々は注意機構研究の今後の方向性を提案する。
論文 参考訳(メタデータ) (2021-11-15T09:18:40Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。