Fugu-MT 論文翻訳(概要): Contrastive Language-Image Pretrained Models are Zero-Shot Human Scanpath Predictors

論文の概要: Contrastive Language-Image Pretrained Models are Zero-Shot Human Scanpath Predictors

arxiv url: http://arxiv.org/abs/2305.12380v2
Date: Tue, 23 May 2023 11:17:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 11:00:57.619816
Title: Contrastive Language-Image Pretrained Models are Zero-Shot Human Scanpath Predictors
Title（参考訳）: 比較言語-画像事前学習モデルはゼロショットヒトスキャンパス予測器である
Authors: Dario Zanca, Andrea Zugarini, Simon Dietz, Thomas R. Altstidl, Mark A. Turban Ndjeuha, Leo Schwinn, Bjoern Eskofier
Abstract要約: CapMIT1003は、キャプションタスク中に収集されたキャプションとクリックコンテンツ画像のデータベースである。 NevaClipは、視覚スキャンパスを予測する新しいゼロショット手法である。
参考スコア（独自算出の注目度）: 2.524526956420465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding the mechanisms underlying human attention is a fundamental challenge for both vision science and artificial intelligence. While numerous computational models of free-viewing have been proposed, less is known about the mechanisms underlying task-driven image exploration. To address this gap, we present CapMIT1003, a database of captions and click-contingent image explorations collected during captioning tasks. CapMIT1003 is based on the same stimuli from the well-known MIT1003 benchmark, for which eye-tracking data under free-viewing conditions is available, which offers a promising opportunity to concurrently study human attention under both tasks. We make this dataset publicly available to facilitate future research in this field. In addition, we introduce NevaClip, a novel zero-shot method for predicting visual scanpaths that combines contrastive language-image pretrained (CLIP) models with biologically-inspired neural visual attention (NeVA) algorithms. NevaClip simulates human scanpaths by aligning the representation of the foveated visual stimulus and the representation of the associated caption, employing gradient-driven visual exploration to generate scanpaths. Our experimental results demonstrate that NevaClip outperforms existing unsupervised computational models of human visual attention in terms of scanpath plausibility, for both captioning and free-viewing tasks. Furthermore, we show that conditioning NevaClip with incorrect or misleading captions leads to random behavior, highlighting the significant impact of caption guidance in the decision-making process. These findings contribute to a better understanding of mechanisms that guide human attention and pave the way for more sophisticated computational approaches to scanpath prediction that can integrate direct top-down guidance of downstream tasks.
Abstract（参考訳）: 人間の注意を支えるメカニズムを理解することは、視覚科学と人工知能の両方にとって根本的な課題である。フリービューの多くの計算モデルが提案されているが、タスク駆動画像探索の基礎となるメカニズムについてはあまり知られていない。そこで本研究では,キャプションタスク中に収集されたキャプションのデータベースであるcapmit1003を提案する。 CapMIT1003は、よく知られたMIT1003ベンチマークと同じ刺激に基づいており、自由視聴条件下での視線追跡データが利用可能である。このデータセットを一般公開して、この分野の今後の研究を支援します。さらに, 比較言語画像事前訓練(CLIP)モデルと生物学的に着想を得たニューラルビジュアルアテンション(NeVA)アルゴリズムを組み合わせた, 視覚スキャンパスのゼロショット予測手法NevaClipを紹介する。 NevaClipはヒトのスキャンパスをシミュレートし、フレーバー付き視覚刺激の表現と関連するキャプションの表現を調整し、勾配駆動型視覚探索を用いてスキャンパスを生成する。実験の結果,nevaclipはキャプション処理とフリービュー処理の両方において,人間の視覚注意の教師なし計算モデルよりもスキャパシビリティが優れていることがわかった。さらに,誤字文や誤字文でNevaClipを条件付けると,ランダムな動作が生じ,意思決定プロセスにおけるキャプションガイダンスの意義が強調される。これらの知見は、人間の注意を誘導し、下流タスクの直接トップダウンガイダンスを統合するスキャンパス予測へのより洗練された計算アプローチへの道を開くメカニズムをよりよく理解するのに役立つ。

関連論文リスト

Modeling Human Gaze Behavior with Diffusion Models for Unified Scanpath Prediction [66.71402249062777]
ScanDiffは、拡散モデルと視覚変換器を組み合わせることで、多種多様な現実的なスキャンパスを生成する新しいアーキテクチャである。本手法は,拡散モデルの性質を活用してスキャンパス変動を明示的にモデル化し,多種多様な視線軌道を生成する。ベンチマークデータセットの実験によると、ScanDiffは、フリービューとタスク駆動のシナリオの両方で最先端のメソッドを上回っている。
論文参考訳（メタデータ） (2025-07-30T18:36:09Z)
Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2025-07-24T15:19:23Z)
Meta-Representational Predictive Coding: Biomimetic Self-Supervised Learning [51.22185316175418]
メタ表現予測符号化(MPC)と呼ばれる新しい予測符号化方式を提案する。 MPCは、並列ストリームにまたがる感覚入力の表現を予測することを学ぶことによって、感覚入力の生成モデルを学ぶ必要性を助長する。
論文参考訳（メタデータ） (2025-03-22T22:13:14Z)
Caption-Driven Explorations: Aligning Image and Text Embeddings through Human-Inspired Foveated Vision [3.3295510777293837]
本稿では,キャプションタスク中の人間の注意力を調べるために,キャプションとクリックコンセント画像探索を備えたデータセットであるCapMIT1003を紹介する。また、NevaClipは、CLIPモデルとNeVAアルゴリズムを組み合わせることで、視覚スキャンパスを予測するゼロショット方式である。
論文参考訳（メタデータ） (2024-08-19T12:41:46Z)
GazeXplain: Learning to Predict Natural Language Explanations of Visual Scanpaths [20.384132849805003]
本稿では,視覚スキャンパス予測と説明の新しい研究であるGazeXplainを紹介する。これには、視線追跡データセットにまたがる修正のための自然言語の説明が注釈付けされる。多様な視線追跡データセットの実験は、スキャンパス予測と説明の両方においてGazeXplainの有効性を示す。
論文参考訳（メタデータ） (2024-08-05T19:11:46Z)
Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文参考訳（メタデータ） (2024-04-22T17:00:57Z)
Unidirectional brain-computer interface: Artificial neural network encoding natural images to fMRI response in the visual cortex [12.1427193917406]
本稿では,人間の脳を模倣する人工ニューラルネットワークVISIONを提案する。 VISIONは、人間の血行動態の反応をfMRIボクセル値として、最先端の性能を超える精度で45%の精度で予測することに成功した。
論文参考訳（メタデータ） (2023-09-26T15:38:26Z)
Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文参考訳（メタデータ） (2023-08-13T10:07:46Z)
Simulating Human Gaze with Neural Visual Attention [44.65733084492857]
我々は、下流の視覚課題のガイダンスをアテンション・モデリングに統合するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。我々は、生物学的に制約されたニューラルネットワークが、この目的のために訓練されることなく、人間の様のスキャンパスを生成することを観察する。
論文参考訳（メタデータ） (2022-11-22T09:02:09Z)
An Inter-observer consistent deep adversarial training for visual scanpath prediction [66.46953851227454]
本稿では,軽量なディープニューラルネットワークによるスキャンパス予測のための,サーバ間一貫した対向トレーニング手法を提案する。我々は、最先端の手法に関して、我々のアプローチの競争力を示す。
論文参考訳（メタデータ） (2022-11-14T13:22:29Z)
Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文参考訳（メタデータ） (2022-07-25T17:58:16Z)
Behind the Machine's Gaze: Biologically Constrained Neural Networks Exhibit Human-like Visual Attention [40.878963450471026]
トップダウン方式でビジュアル・スキャンパスを生成するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。提案手法は,人間の走査パスと類似性の観点から,最先端の非監視的注意モデルより優れていることを示す。
論文参考訳（メタデータ） (2022-04-19T18:57:47Z)
Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。共通情報と相補情報の両方を敵意で抽出することを目的としている。特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文参考訳（メタデータ） (2021-02-15T18:46:44Z)
Proactive Pseudo-Intervention: Causally Informed Contrastive Learning For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。 PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文参考訳（メタデータ） (2020-12-06T20:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。