論文の概要: Contrastive Language-Image Pretrained Models are Zero-Shot Human
Scanpath Predictors
- arxiv url: http://arxiv.org/abs/2305.12380v2
- Date: Tue, 23 May 2023 11:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 11:00:57.619816
- Title: Contrastive Language-Image Pretrained Models are Zero-Shot Human
Scanpath Predictors
- Title(参考訳): 比較言語-画像事前学習モデルはゼロショットヒトスキャンパス予測器である
- Authors: Dario Zanca, Andrea Zugarini, Simon Dietz, Thomas R. Altstidl, Mark A.
Turban Ndjeuha, Leo Schwinn, Bjoern Eskofier
- Abstract要約: CapMIT1003は、キャプションタスク中に収集されたキャプションとクリックコンテンツ画像のデータベースである。
NevaClipは、視覚スキャンパスを予測する新しいゼロショット手法である。
- 参考スコア(独自算出の注目度): 2.524526956420465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the mechanisms underlying human attention is a fundamental
challenge for both vision science and artificial intelligence. While numerous
computational models of free-viewing have been proposed, less is known about
the mechanisms underlying task-driven image exploration. To address this gap,
we present CapMIT1003, a database of captions and click-contingent image
explorations collected during captioning tasks. CapMIT1003 is based on the same
stimuli from the well-known MIT1003 benchmark, for which eye-tracking data
under free-viewing conditions is available, which offers a promising
opportunity to concurrently study human attention under both tasks. We make
this dataset publicly available to facilitate future research in this field. In
addition, we introduce NevaClip, a novel zero-shot method for predicting visual
scanpaths that combines contrastive language-image pretrained (CLIP) models
with biologically-inspired neural visual attention (NeVA) algorithms. NevaClip
simulates human scanpaths by aligning the representation of the foveated visual
stimulus and the representation of the associated caption, employing
gradient-driven visual exploration to generate scanpaths. Our experimental
results demonstrate that NevaClip outperforms existing unsupervised
computational models of human visual attention in terms of scanpath
plausibility, for both captioning and free-viewing tasks. Furthermore, we show
that conditioning NevaClip with incorrect or misleading captions leads to
random behavior, highlighting the significant impact of caption guidance in the
decision-making process. These findings contribute to a better understanding of
mechanisms that guide human attention and pave the way for more sophisticated
computational approaches to scanpath prediction that can integrate direct
top-down guidance of downstream tasks.
- Abstract(参考訳): 人間の注意を支えるメカニズムを理解することは、視覚科学と人工知能の両方にとって根本的な課題である。
フリービューの多くの計算モデルが提案されているが、タスク駆動画像探索の基礎となるメカニズムについてはあまり知られていない。
そこで本研究では,キャプションタスク中に収集されたキャプションのデータベースであるcapmit1003を提案する。
CapMIT1003は、よく知られたMIT1003ベンチマークと同じ刺激に基づいており、自由視聴条件下での視線追跡データが利用可能である。
このデータセットを一般公開して、この分野の今後の研究を支援します。
さらに, 比較言語画像事前訓練(CLIP)モデルと生物学的に着想を得たニューラルビジュアルアテンション(NeVA)アルゴリズムを組み合わせた, 視覚スキャンパスのゼロショット予測手法NevaClipを紹介する。
NevaClipはヒトのスキャンパスをシミュレートし、フレーバー付き視覚刺激の表現と関連するキャプションの表現を調整し、勾配駆動型視覚探索を用いてスキャンパスを生成する。
実験の結果,nevaclipはキャプション処理とフリービュー処理の両方において,人間の視覚注意の教師なし計算モデルよりもスキャパシビリティが優れていることがわかった。
さらに,誤字文や誤字文でNevaClipを条件付けると,ランダムな動作が生じ,意思決定プロセスにおけるキャプションガイダンスの意義が強調される。
これらの知見は、人間の注意を誘導し、下流タスクの直接トップダウンガイダンスを統合するスキャンパス予測へのより洗練された計算アプローチへの道を開くメカニズムをよりよく理解するのに役立つ。
関連論文リスト
- Unidirectional brain-computer interface: Artificial neural network
encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。
VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文 参考訳(メタデータ) (2023-09-26T15:38:26Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Simulating Human Gaze with Neural Visual Attention [44.65733084492857]
我々は、下流の視覚課題のガイダンスをアテンション・モデリングに統合するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
我々は、生物学的に制約されたニューラルネットワークが、この目的のために訓練されることなく、人間の様のスキャンパスを生成することを観察する。
論文 参考訳(メタデータ) (2022-11-22T09:02:09Z) - An Inter-observer consistent deep adversarial training for visual
scanpath prediction [66.46953851227454]
本稿では,軽量なディープニューラルネットワークによるスキャンパス予測のための,サーバ間一貫した対向トレーニング手法を提案する。
我々は、最先端の手法に関して、我々のアプローチの競争力を示す。
論文 参考訳(メタデータ) (2022-11-14T13:22:29Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Behind the Machine's Gaze: Biologically Constrained Neural Networks
Exhibit Human-like Visual Attention [40.878963450471026]
トップダウン方式でビジュアル・スキャンパスを生成するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
提案手法は,人間の走査パスと類似性の観点から,最先端の非監視的注意モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:57:47Z) - SALYPATH: A Deep-Based Architecture for visual attention prediction [5.068678962285629]
視覚的注意は、画像圧縮、認識、キャプションなどの多くのコンピュータビジョンアプリケーションに有用である。
本稿では, 画像の走査パスを, サリエンシモデルの特徴を通して効率的に予測する, いわゆるSALYPATHを提案する。
その考え方は、深いベースモデルの能力を利用してスキャンパスを予測し、サリエンシを予測することである。
論文 参考訳(メタデータ) (2021-06-29T08:53:51Z) - From Hand-Perspective Visual Information to Grasp Type Probabilities:
Deep Learning via Ranking Labels [6.772076545800592]
Plackett-Luceモデルに基づいた新しい確率分類器を構築し、把握上の確率分布を予測する。
提案モデルは,最もポピュラーで生産性の高い畳み込みニューラルネットワークフレームワークに適用可能であることを示す。
論文 参考訳(メタデータ) (2021-03-08T16:12:38Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。