論文の概要: Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model for Vision
- arxiv url: http://arxiv.org/abs/2505.13191v1
- Date: Mon, 19 May 2025 14:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.663837
- Title: Emergence of Fixational and Saccadic Movements in a Multi-Level Recurrent Attention Model for Vision
- Title(参考訳): 視覚に対する多レベル反復注意モデルにおける固定運動とサッケード運動の創発
- Authors: Pengcheng Pan, Yonekura Shogo, Yasuo Kuniyoshi,
- Abstract要約: 本稿では,人間の視覚処理の神経階層を明示的にモデル化する新しいハードアテンションフレームワークを提案する。
MRAMは,2つの繰り返し層における視覚的位置生成とタスク実行の機能を分離することにより,固定とサスカディック運動のバランスのとれた動作を創出する。
以上の結果から,MRAMは人間の注意力だけでなく,標準画像分類ベンチマークにおいてCNN,RAM,DRAMのベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 2.2598770696612926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inspired by foveal vision, hard attention models promise interpretability and parameter economy. However, existing models like the Recurrent Model of Visual Attention (RAM) and Deep Recurrent Attention Model (DRAM) failed to model the hierarchy of human vision system, that compromise on the visual exploration dynamics. As a result, they tend to produce attention that are either overly fixational or excessively saccadic, diverging from human eye movement behavior. In this paper, we propose a Multi-Level Recurrent Attention Model (MRAM), a novel hard attention framework that explicitly models the neural hierarchy of human visual processing. By decoupling the function of glimpse location generation and task execution in two recurrent layers, MRAM emergent a balanced behavior between fixation and saccadic movement. Our results show that MRAM not only achieves more human-like attention dynamics, but also consistently outperforms CNN, RAM and DRAM baselines on standard image classification benchmarks.
- Abstract(参考訳): 胎児の視覚にインスパイアされたハードアテンションモデルは、解釈可能性とパラメータ経済を約束する。
しかし、リカレント・モデル・オブ・ビジュアル・アテンション(RAM)やディープ・リカレント・アテンション・モデル(DRAM)のような既存のモデルは人間の視覚システムの階層をモデル化できなかった。
その結果、彼らは過度に固定的または過度にサスカディックな注意を惹きつける傾向にあり、人間の目の動きから逸脱する。
本稿では、人間の視覚処理の神経階層を明示的にモデル化する新しいハードアテンションフレームワークであるMRAM(Multi-Level Recurrent Attention Model)を提案する。
MRAMは,2つの繰り返し層における視覚的位置生成とタスク実行の機能を分離することにより,固定とサスカディック運動のバランスのとれた動作を創出する。
以上の結果から,MRAMは人間の注意力だけでなく,標準画像分類ベンチマークにおいてCNN,RAM,DRAMのベースラインを一貫して上回っていることがわかった。
関連論文リスト
- DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - Autoregressive Models in Vision: A Survey [119.23742136065307]
本調査は、視覚に適用される自己回帰モデルに関する文献を包括的に調査する。
視覚的自己回帰モデルを,画素ベース,トークンベース,スケールベースを含む3つの一般的なサブカテゴリに分割する。
本稿では,画像生成,映像生成,3D生成,マルチモーダル生成など,コンピュータビジョンにおける自己回帰モデルの多面的分類を提案する。
論文 参考訳(メタデータ) (2024-11-08T17:15:12Z) - Unmasking unlearnable models: a classification challenge for biomedical images without visible cues [0.0]
我々は総合的な探索を通じてMGMT状態予測の複雑さを解明する。
我々の発見は、現在のモデルは学習不可能であり、現実世界のアプリケーションを調べるために新しいアーキテクチャを必要とする可能性があることを強調した。
論文 参考訳(メタデータ) (2024-07-29T08:12:42Z) - Towards Evaluating the Robustness of Visual State Space Models [63.14954591606638]
視覚状態空間モデル(VSSM)は視覚知覚タスクにおいて顕著な性能を示した。
しかし、自然と敵対的な摂動の下での頑丈さは依然として重要な懸念事項である。
様々な摂動シナリオ下でのVSSMの頑健さを総合的に評価する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Interpretable Computer Vision Models through Adversarial Training:
Unveiling the Robustness-Interpretability Connection [0.0]
解釈可能性は、モデルを現実世界にデプロイする際には、堅牢性と同じくらい不可欠です。
標準モデルは、ロバストと比較して敵の攻撃に対してより感受性が高く、その学習された表現は人間にはあまり意味がない。
論文 参考訳(メタデータ) (2023-07-04T13:51:55Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。