論文の概要: Contrastive Language-Image Pretrained Models are Zero-Shot Human
Scanpath Predictors
- arxiv url: http://arxiv.org/abs/2305.12380v2
- Date: Tue, 23 May 2023 11:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 11:00:57.619816
- Title: Contrastive Language-Image Pretrained Models are Zero-Shot Human
Scanpath Predictors
- Title(参考訳): 比較言語-画像事前学習モデルはゼロショットヒトスキャンパス予測器である
- Authors: Dario Zanca, Andrea Zugarini, Simon Dietz, Thomas R. Altstidl, Mark A.
Turban Ndjeuha, Leo Schwinn, Bjoern Eskofier
- Abstract要約: CapMIT1003は、キャプションタスク中に収集されたキャプションとクリックコンテンツ画像のデータベースである。
NevaClipは、視覚スキャンパスを予測する新しいゼロショット手法である。
- 参考スコア(独自算出の注目度): 2.524526956420465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the mechanisms underlying human attention is a fundamental
challenge for both vision science and artificial intelligence. While numerous
computational models of free-viewing have been proposed, less is known about
the mechanisms underlying task-driven image exploration. To address this gap,
we present CapMIT1003, a database of captions and click-contingent image
explorations collected during captioning tasks. CapMIT1003 is based on the same
stimuli from the well-known MIT1003 benchmark, for which eye-tracking data
under free-viewing conditions is available, which offers a promising
opportunity to concurrently study human attention under both tasks. We make
this dataset publicly available to facilitate future research in this field. In
addition, we introduce NevaClip, a novel zero-shot method for predicting visual
scanpaths that combines contrastive language-image pretrained (CLIP) models
with biologically-inspired neural visual attention (NeVA) algorithms. NevaClip
simulates human scanpaths by aligning the representation of the foveated visual
stimulus and the representation of the associated caption, employing
gradient-driven visual exploration to generate scanpaths. Our experimental
results demonstrate that NevaClip outperforms existing unsupervised
computational models of human visual attention in terms of scanpath
plausibility, for both captioning and free-viewing tasks. Furthermore, we show
that conditioning NevaClip with incorrect or misleading captions leads to
random behavior, highlighting the significant impact of caption guidance in the
decision-making process. These findings contribute to a better understanding of
mechanisms that guide human attention and pave the way for more sophisticated
computational approaches to scanpath prediction that can integrate direct
top-down guidance of downstream tasks.
- Abstract(参考訳): 人間の注意を支えるメカニズムを理解することは、視覚科学と人工知能の両方にとって根本的な課題である。
フリービューの多くの計算モデルが提案されているが、タスク駆動画像探索の基礎となるメカニズムについてはあまり知られていない。
そこで本研究では,キャプションタスク中に収集されたキャプションのデータベースであるcapmit1003を提案する。
CapMIT1003は、よく知られたMIT1003ベンチマークと同じ刺激に基づいており、自由視聴条件下での視線追跡データが利用可能である。
このデータセットを一般公開して、この分野の今後の研究を支援します。
さらに, 比較言語画像事前訓練(CLIP)モデルと生物学的に着想を得たニューラルビジュアルアテンション(NeVA)アルゴリズムを組み合わせた, 視覚スキャンパスのゼロショット予測手法NevaClipを紹介する。
NevaClipはヒトのスキャンパスをシミュレートし、フレーバー付き視覚刺激の表現と関連するキャプションの表現を調整し、勾配駆動型視覚探索を用いてスキャンパスを生成する。
実験の結果,nevaclipはキャプション処理とフリービュー処理の両方において,人間の視覚注意の教師なし計算モデルよりもスキャパシビリティが優れていることがわかった。
さらに,誤字文や誤字文でNevaClipを条件付けると,ランダムな動作が生じ,意思決定プロセスにおけるキャプションガイダンスの意義が強調される。
これらの知見は、人間の注意を誘導し、下流タスクの直接トップダウンガイダンスを統合するスキャンパス予測へのより洗練された計算アプローチへの道を開くメカニズムをよりよく理解するのに役立つ。
関連論文リスト
- Caption-Driven Explorations: Aligning Image and Text Embeddings through Human-Inspired Foveated Vision [3.3295510777293837]
本稿では,キャプションタスク中の人間の注意力を調べるために,キャプションとクリックコンセント画像探索を備えたデータセットであるCapMIT1003を紹介する。
また、NevaClipは、CLIPモデルとNeVAアルゴリズムを組み合わせることで、視覚スキャンパスを予測するゼロショット方式である。
論文 参考訳(メタデータ) (2024-08-19T12:41:46Z) - GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths [20.384132849805003]
本稿では,視覚スキャンパス予測と説明の新しい研究であるGazeXplainを紹介する。
これには、視線追跡データセットにまたがる修正のための自然言語の説明が注釈付けされる。
多様な視線追跡データセットの実験は、スキャンパス予測と説明の両方においてGazeXplainの有効性を示す。
論文 参考訳(メタデータ) (2024-08-05T19:11:46Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Simulating Human Gaze with Neural Visual Attention [44.65733084492857]
我々は、下流の視覚課題のガイダンスをアテンション・モデリングに統合するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
我々は、生物学的に制約されたニューラルネットワークが、この目的のために訓練されることなく、人間の様のスキャンパスを生成することを観察する。
論文 参考訳(メタデータ) (2022-11-22T09:02:09Z) - An Inter-observer consistent deep adversarial training for visual
scanpath prediction [66.46953851227454]
本稿では,軽量なディープニューラルネットワークによるスキャンパス予測のための,サーバ間一貫した対向トレーニング手法を提案する。
我々は、最先端の手法に関して、我々のアプローチの競争力を示す。
論文 参考訳(メタデータ) (2022-11-14T13:22:29Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Behind the Machine's Gaze: Biologically Constrained Neural Networks
Exhibit Human-like Visual Attention [40.878963450471026]
トップダウン方式でビジュアル・スキャンパスを生成するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
提案手法は,人間の走査パスと類似性の観点から,最先端の非監視的注意モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:57:47Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。