論文の概要: A saccade-inspired approach to image classification using visiontransformer attention maps
- arxiv url: http://arxiv.org/abs/2603.09613v1
- Date: Tue, 10 Mar 2026 12:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.317849
- Title: A saccade-inspired approach to image classification using visiontransformer attention maps
- Title(参考訳): 視覚変換器アテンションマップを用いたササードモデルによる画像分類
- Authors: Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît Miramond,
- Abstract要約: 人間の視覚システムからインスピレーションを得て、よりスマートな画像処理モデルを作成します。
自己教師型視覚変換器であるDINOを用いて,視覚空間の重要領域に情報処理を集中させるササードインスピレーション方式を提案する。
この選択的処理戦略は、フルイメージの分類性能の大部分を保ち、場合によっては性能も向上する。
- 参考スコア(独自算出の注目度): 0.9332987715848716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human vision achieves remarkable perceptual performance while operating under strict metabolic constraints. A key ingredient is the selective attention mechanism, driven by rapid saccadic eye movements that constantly reposition the high-resolution fovea onto task-relevant locations, unlike conventional AI systems that process entire images with equal emphasis. Our work aims to draw inspiration from the human visual system to create smarter, more efficient image processing models. Using DINO, a self-supervised Vision Transformer that produces attention maps strikingly similar to human gaze patterns, we explore a saccade inspired method to focus the processing of information on key regions in visual space. To do so, we use the ImageNet dataset in a standard classification task and measure how each successive saccade affects the model's class scores. This selective-processing strategy preserves most of the full-image classification performance and can even outperform it in certain cases. By benchmarking against established saliency models built for human gaze prediction, we demonstrate that DINO provides superior fixation guidance for selecting informative regions. These findings highlight Vision Transformer attention as a promising basis for biologically inspired active vision and open new directions for efficient, neuromorphic visual processing.
- Abstract(参考訳): 人間の視覚は、厳密なメタボリック制約の下で動作しながら、顕著な知覚性能を達成する。
重要な要素は選択的な注意機構であり、画像全体を同じ強調で処理する従来のAIシステムとは異なり、高解像度の眼球をタスク関連場所に常に再配置する急激なサスカディック眼球運動によって駆動される。
私たちの研究は、人間の視覚システムからインスピレーションを得て、より賢く、より効率的な画像処理モデルを作成することを目的としています。
人間の視線パターンと著しく類似したアテンションマップを生成する自己教師型視覚変換器であるDINOを用いて,視覚空間における重要領域の情報処理に焦点をあてるササードインスピレーション方式を探索する。
そのため、標準分類タスクではImageNetデータセットを使用し、各ササードがモデルのクラススコアにどのように影響するかを測定する。
この選択的処理戦略は、フルイメージの分類性能の大部分を保ち、場合によっては性能も向上する。
人間の視線予測のために構築された確立された衛生モデルとベンチマークすることにより、DINOが情報領域の選択に優れた修正ガイダンスを提供することを示す。
これらの知見は、バイオインスパイアされた能動視覚と、効率的でニューロモルフィックな視覚処理のための新しい方向のための有望な基盤として、ビジョントランスフォーマーの注意を浮き彫りにしている。
関連論文リスト
- STARE: Predicting Decision Making Based on Spatio-Temporal Eye Movements [49.906485205551746]
本稿では,意思決定環境の画像に生視や眼球修正の時系列から様々な消費者選択行動を予測するためのディープラーニングアーキテクチャを提案する。
STAREと複数のデータセット上の最先端の代替手段を比較し,眼球運動から消費者選択行動を予測することを目的とした。
論文 参考訳(メタデータ) (2025-08-06T07:20:31Z) - Human Scanpath Prediction in Target-Present Visual Search with Semantic-Foveal Bayesian Attention [49.99728312519117]
SemBA-FASTは、ターゲットの視覚検索における人間の視覚的注意を予測するためのトップダウンフレームワークである。
我々は、COCO-Search18ベンチマークデータセット上でSemBA-FASTを評価し、その性能を他のスキャンパス予測モデルと比較した。
これらの知見は、人間のような注意モデリングのためのセマンティック・フレーバー・確率的フレームワークの能力に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-07-24T15:19:23Z) - Align and Surpass Human Camouflaged Perception: Visual Refocus Reinforcement Fine-Tuning [18.13538667261998]
現在のマルチモーダルモデルは、背景に視覚的に同化されている物体を特定する際に、人間の視覚システムと顕著な相違を示す。
我々は、人間の視覚的カモフラージュされた知覚を段階的に再現し、視覚的隠蔽コンテンツを反復的に再焦点する視覚システムを構築した。
論文 参考訳(メタデータ) (2025-05-26T07:27:18Z) - Convolution goes higher-order: a biologically inspired mechanism empowers image classification [0.8999666725996975]
本稿では,複雑な非線形生物学的視覚処理に着想を得た画像分類手法を提案する。
我々のモデルは、Volterraのような畳み込み演算子の拡張を組み込み、乗法的相互作用をキャプチャする。
私たちの仕事は神経科学とディープラーニングを橋渡しし、より効果的で生物学的にインスパイアされたコンピュータビジョンモデルへの道筋を提供します。
論文 参考訳(メタデータ) (2024-12-09T18:33:09Z) - Vision Eagle Attention: a new lens for advancing image classification [0.8158530638728501]
コンボリューショナルな空間的注意力を用いた視覚的特徴抽出を促進する新しい注意機構であるビジョンイーグル注意(Vision Eagle Attention)を導入する。
このモデルは、局所的な空間的特徴を捉えるために畳み込みを適用し、画像の最も情報性の高い領域を選択的に強調するアテンションマップを生成する。
Vision Eagle Attentionを軽量なResNet-18アーキテクチャに統合しました。
論文 参考訳(メタデータ) (2024-11-15T20:21:59Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Peripheral Vision Transformer [52.55309200601883]
我々は生物学的にインスパイアされたアプローチを採用し、視覚認識のためのディープニューラルネットワークの周辺視覚をモデル化する。
本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割することをネットワークが学べるようにすることを提案する。
大規模画像Netデータセット上でPerViTと呼ばれる提案したネットワークを評価し,マシン知覚モデルの内部動作を体系的に検討した。
論文 参考訳(メタデータ) (2022-06-14T12:47:47Z) - Behind the Machine's Gaze: Biologically Constrained Neural Networks
Exhibit Human-like Visual Attention [40.878963450471026]
トップダウン方式でビジュアル・スキャンパスを生成するニューラル・ビジュアル・アテンション(NeVA)アルゴリズムを提案する。
提案手法は,人間の走査パスと類似性の観点から,最先端の非監視的注意モデルより優れていることを示す。
論文 参考訳(メタデータ) (2022-04-19T18:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。