論文の概要: From Fake Focus to Real Precision: Confusion-Driven Adversarial Attention Learning in Transformers
- arxiv url: http://arxiv.org/abs/2512.20661v1
- Date: Fri, 19 Dec 2025 01:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.54508
- Title: From Fake Focus to Real Precision: Confusion-Driven Adversarial Attention Learning in Transformers
- Title(参考訳): フェイクフォーカスから実精度へ:変圧器の融合駆動型対向注意学習
- Authors: Yawei Liu,
- Abstract要約: トランスフォーマーに基づくモデルが感情分析タスクに広く採用されている。
既存のモデルでは、主に一般的な単語に注意を向ける傾向があり、あまり人気がないがタスク関連性の高い用語を見越す傾向にある。
そこで本研究では,注意重みを適切な焦点に自動的に再分配する,AFA(Adversarial Feedback for Attention)トレーニング機構を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have been widely adopted for sentiment analysis tasks due to their exceptional ability to capture contextual information. However, these methods often exhibit suboptimal accuracy in certain scenarios. By analyzing their attention distributions, we observe that existing models tend to allocate attention primarily to common words, overlooking less popular yet highly task-relevant terms, which significantly impairs overall performance. To address this issue, we propose an Adversarial Feedback for Attention(AFA) training mechanism that enables the model to automatically redistribute attention weights to appropriate focal points without requiring manual annotations. This mechanism incorporates a dynamic masking strategy that attempts to mask various words to deceive a discriminator, while the discriminator strives to detect significant differences induced by these masks. Additionally, leveraging the sensitivity of Transformer models to token-level perturbations, we employ a policy gradient approach to optimize attention distributions, which facilitates efficient and rapid convergence. Experiments on three public datasets demonstrate that our method achieves state-of-the-art results. Furthermore, applying this training mechanism to enhance attention in large language models yields a further performance improvement of 12.6%
- Abstract(参考訳): トランスフォーマーに基づくモデルが感情分析タスクに広く採用されている。
しかし、これらの手法は特定のシナリオにおいて最適以下の精度を示すことが多い。
注意分布を解析することにより、既存のモデルは、一般的な単語に主に注意を割り当てる傾向にあり、あまり人気がなく、タスク関連性の高い用語を見越して、全体的なパフォーマンスを著しく損なうことを観察する。
この問題に対処するために,手動のアノテーションを必要とせず,自動的に注意重みを適切な焦点点に再分配する,AFA(Adversarial Feedback for Attention)トレーニング機構を提案する。
このメカニズムは、様々な単語をマスキングして識別器を騙そうとする動的なマスキング戦略を取り入れ、識別器はこれらのマスキングによって引き起こされる重要な違いを検知しようとする。
さらに, トークンレベルの摂動に対するトランスフォーマーモデルの感度を活用することで, 注意分布の最適化にポリシー勾配アプローチを採用することにより, 効率的かつ迅速な収束を実現する。
3つの公開データセットに対する実験により,本手法が最先端の結果を得ることを示す。
さらに、このトレーニングメカニズムを適用して、大規模言語モデルの注意力を高めることで、12.6%のさらなるパフォーマンス向上が達成される。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Attention, Please! Revisiting Attentive Probing Through the Lens of Efficiency [20.320991233039965]
微調整が大規模で非現実的になると、好ましい評価プロトコルとして探索が出現する。
これは注意力を使ってパッチレベルの機能を選択的に集約する代替手段である注意力調査の必要性を動機付けている。
本稿では,既存の手法を総合的に検討し,その設計選択を解析し,性能をベンチマークする。
論文 参考訳(メタデータ) (2025-06-11T21:10:26Z) - Robust Distribution Alignment for Industrial Anomaly Detection under Distribution Shift [51.24522135151649]
異常検出は産業アプリケーションの品質管理において重要な役割を担っている。
既存の方法は、一般化可能なモデルをトレーニングすることで、ドメインシフトに対処しようとする。
提案手法は,最先端の異常検出法や領域適応法と比較して,優れた結果を示す。
論文 参考訳(メタデータ) (2025-03-19T05:25:52Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Enhancing In-Context Learning via Implicit Demonstration Augmentation [26.78252788538567]
In-context Learning (ICL) は、事前訓練された言語モデルがパラメータを更新せずに未確認入力の予測を行うことを可能にする。
その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存している。
本稿では,この課題に初めて挑戦する。
論文 参考訳(メタデータ) (2024-06-27T05:25:46Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。