論文の概要: Attention Schema-based Attention Control (ASAC): A Cognitive-Inspired Approach for Attention Management in Transformers
- arxiv url: http://arxiv.org/abs/2509.16058v1
- Date: Fri, 19 Sep 2025 15:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.219187
- Title: Attention Schema-based Attention Control (ASAC): A Cognitive-Inspired Approach for Attention Management in Transformers
- Title(参考訳): アテンションスキーマに基づくアテンション制御(ASAC) : トランスフォーマーのアテンション管理のための認知的アプローチ
- Authors: Krati Saxena, Federico Jurado Ruiz, Guido Manzi, Dianbo Liu, Alex Lamb,
- Abstract要約: 本稿では、アテンションスキーマの概念を人工ニューラルネットワークに統合したASAC(Attention-based Attention Control)を紹介する。
本手法は,アテンションアロケーションを明示的にモデル化することにより,システム効率を向上させることを目的としている。
視覚領域とNLP領域の両方においてASACの有効性を実証し、分類精度を改善し、学習プロセスを高速化する能力を強調した。
- 参考スコア(独自算出の注目度): 6.853513140582486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanisms have become integral in AI, significantly enhancing model performance and scalability by drawing inspiration from human cognition. Concurrently, the Attention Schema Theory (AST) in cognitive science posits that individuals manage their attention by creating a model of the attention itself, effectively allocating cognitive resources. Inspired by AST, we introduce ASAC (Attention Schema-based Attention Control), which integrates the attention schema concept into artificial neural networks. Our initial experiments focused on embedding the ASAC module within transformer architectures. This module employs a Vector-Quantized Variational AutoEncoder (VQVAE) as both an attention abstractor and controller, facilitating precise attention management. By explicitly modeling attention allocation, our approach aims to enhance system efficiency. We demonstrate ASAC's effectiveness in both the vision and NLP domains, highlighting its ability to improve classification accuracy and expedite the learning process. Our experiments with vision transformers across various datasets illustrate that the attention controller not only boosts classification accuracy but also accelerates learning. Furthermore, we have demonstrated the model's robustness and generalization capabilities across noisy and out-of-distribution datasets. In addition, we have showcased improved performance in multi-task settings. Quick experiments reveal that the attention schema-based module enhances resilience to adversarial attacks, optimizes attention to improve learning efficiency, and facilitates effective transfer learning and learning from fewer examples. These promising results establish a connection between cognitive science and machine learning, shedding light on the efficient utilization of attention mechanisms in AI systems.
- Abstract(参考訳): 注意機構はAIにおいて不可欠なものとなり、人間の認識からインスピレーションを得ることにより、モデルの性能とスケーラビリティを大幅に向上した。
同時に、認知科学における注意スキーマ理論(AST)は、個人が注意そのもののモデルを作成し、認知資源を効果的に割り当てることによって注意を管理することを示唆している。
ASTにインスパイアされたASAC(Attention Schema-based Attention Control)を導入し,アテンションスキーマの概念を人工ニューラルネットワークに統合する。
最初の実験では、トランスアーキテクチャにASACモジュールを組み込むことに焦点を合わせました。
このモジュールはVector-Quantized Variational AutoEncoder (VQVAE) をアテンション抽象化およびコントローラとして使用し、正確なアテンション管理を容易にする。
本手法は,アテンションアロケーションを明示的にモデル化することにより,システム効率を向上させることを目的としている。
視覚領域とNLP領域の両方においてASACの有効性を実証し、分類精度を改善し、学習プロセスを高速化する能力を強調した。
様々なデータセットにわたる視覚変換器を用いた実験は、注意制御器が分類精度を向上するだけでなく、学習を加速することを示している。
さらに、ノイズやアウト・オブ・ディストリビューションデータセットにまたがるモデルの堅牢性と一般化能力を実証した。
さらに,マルチタスク設定における性能向上も紹介した。
クイック実験では、アテンションスキーマベースのモジュールは、敵攻撃に対するレジリエンスを高め、学習効率を改善するために注意を最適化し、より少ない例から効果的な伝達学習と学習を促進する。
これらの有望な結果は、認知科学と機械学習の関連性を確立し、AIシステムにおける注意機構の効率的な活用に光を当てる。
関連論文リスト
- Detection Transformers Under the Knife: A Neuroscience-Inspired Approach to Ablations [5.5967570276373655]
我々は3つの最先端検出トランスモデルにおけるキーコンポーネントの破壊の影響を系統的に分析する。
我々は,これらの改善がパフォーマンス指標gIoUとF1スコアに与える影響を評価する。
本研究は, モデル性能に対する内部成分の寄与を明らかにすることにより, DETRのXAIを推し進める。
論文 参考訳(メタデータ) (2025-07-29T12:00:08Z) - Enhancing Generative Class Incremental Learning Performance with Model Forgetting Approach [50.36650300087987]
本研究は, ジェネレーティブ・クラス・インクリメンタル・ラーニング(GCIL, Generative Class Incremental Learning)への新たなアプローチを提案する。
我々は, 忘れる機構の統合により, 新たな知識獲得におけるモデルの性能が著しく向上することを発見した。
論文 参考訳(メタデータ) (2024-03-27T05:10:38Z) - Switchable Self-attention Module [3.8992324495848356]
自己注意モジュールSEMを提案する。
SEMは、アテンションモジュールと代替アテンション演算子の入力情報に基づいて、自動的にアテンション演算子を選択し、統合してアテンションマップを計算することができる。
SEMの有効性は、広く使われているベンチマークデータセットと一般的な自己注意ネットワークに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2022-09-13T01:19:38Z) - Self-Supervised Implicit Attention: Guided Attention by The Model Itself [1.3406858660972554]
我々は、深層ニューラルネットワークモデルに適応的に誘導し、モデル自体の特性を活用する新しいアプローチである、自己監視インシシット注意(SSIA:Self-Supervised Implicit Attention)を提案する。
SSIAAは、推論中に余分なパラメータ、計算、メモリアクセスコストを必要としない新しいアテンションメカニズムである。
私たちの実装はGitHubで公開されます。
論文 参考訳(メタデータ) (2022-06-15T10:13:34Z) - TDAN: Top-Down Attention Networks for Enhanced Feature Selectivity in
CNNs [18.24779045808196]
本稿では,トップダウンチャネルと空間変調を行うために,視覚検索ライトを反復的に生成する軽量なトップダウンアテンションモジュールを提案する。
我々のモデルは、推論中の入力解像度の変化に対してより堅牢であり、個々のオブジェクトや特徴を明示的な監督なしに各計算ステップでローカライズすることで、注意を"シフト"することを学ぶ。
論文 参考訳(メタデータ) (2021-11-26T12:35:17Z) - Counterfactual Attention Learning for Fine-Grained Visual Categorization
and Re-identification [101.49122450005869]
本稿では,因果推論に基づくより効果的な注意力学習法を提案する。
具体的には,学習した視覚的注意がネットワーク予測に与える影響を分析する。
本手法は,広範囲の粒度認識タスクにおいて評価する。
論文 参考訳(メタデータ) (2021-08-19T14:53:40Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Deep Reinforced Attention Learning for Quality-Aware Visual Recognition [73.15276998621582]
我々は,任意の畳み込みニューラルネットワークにおける中間注意マップの弱教師付き生成機構を構築した。
メタ批評家ネットワークを導入し、メインネットワークにおける注目マップの質を評価する。
論文 参考訳(メタデータ) (2020-07-13T02:44:38Z) - Cost-effective Interactive Attention Learning with Neural Attention
Processes [79.8115563067513]
対話型注意学習(Interactive Attention Learning, IAL)と呼ばれる対話型学習フレームワークを提案する。
IALは、人間のアノテーションが不足しているため、過度に適合する傾向がある。
我々は,サンプル効率のよい注意機構と,コスト効率のよいインスタンスと機能の再ランクアルゴリズムを提案することで,これらの課題に対処する。
論文 参考訳(メタデータ) (2020-06-09T17:36:41Z) - Guided Variational Autoencoder for Disentanglement Learning [79.02010588207416]
本稿では,潜在表現非絡み合い学習を行うことで,制御可能な生成モデルを学習できるアルゴリズム,Guided-VAEを提案する。
我々は、ガイド-VAEにおける教師なし戦略と教師なし戦略を設計し、バニラVAE上でのモデリングと制御能力の強化を観察する。
論文 参考訳(メタデータ) (2020-04-02T20:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。