論文の概要: Mitigating Attention Localization in Small Scale: Self-Attention Refinement via One-step Belief Propagation
- arxiv url: http://arxiv.org/abs/2509.07324v1
- Date: Tue, 09 Sep 2025 01:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.163663
- Title: Mitigating Attention Localization in Small Scale: Self-Attention Refinement via One-step Belief Propagation
- Title(参考訳): 小さめの注意位置の緩和:一段階の信念伝播による自己注意の抑制
- Authors: Nakyung Lee, Yeongoon Kim, Minhae Oh, Suhwan Kim, Jin Woo Koo, Hyewon Jo, Jungwoo Lee,
- Abstract要約: 本稿では,マルチホップ関係を信念伝達プロセスを通じて注入する改良フレームワークを提案する。
Global Token Dependency (GTD) は、アテンショングラフ内のマルチホップ接続の相対的寄与をキャプチャする。
我々は,小規模モデルにおける競争力の向上を観察し,資源制約シナリオにおける推論品質の向上の可能性を強調した。
- 参考スコア(独自算出の注目度): 4.454269565339592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based self-attention mechanism serves as the core of modern language models, yet it often suffers from localization, where attentions collapse onto a limited subset of tokens and fail to capture long-range dependencies. To address this issue, we propose Self-Attention One-step Belief Propagation (SAOBP), a refinement framework that injects multi-hop relationships through a belief propagation process. To interpret and quantify these interactions, we introduce Global Token Dependency (GTD) that captures the relative contribution of multihop connections within the attention graph. Empirical results indicate that SAOBP helps prevent entropy collapse in deeper layers and adaptively maintains GTD at task-appropriate levels, thereby supporting improvements in model performance. Importantly, we observe competitive gains in small-scale models, highlighting its potential for improving inference quality in resource-constrained scenarios.
- Abstract(参考訳): トランスフォーマーベースのセルフアテンションメカニズムは、モダン言語モデルのコアとして機能するが、しばしばローカライゼーションに悩まされる。
この問題に対処するため,我々は,信仰伝播プロセスを通じてマルチホップ関係を注入する改良フレームワークSAOBP(Self-Attention One-step Belief Propagation)を提案する。
これらの相互作用を解釈し、定量化するために、注意グラフ内のマルチホップ接続の相対的寄与をキャプチャするGTD(Global Token Dependency)を導入する。
実験結果から,SAOBPは深い層におけるエントロピー崩壊を防止し,タスクに適したレベルでGTDを適応的に維持し,モデル性能の向上を支援することが示唆された。
重要なことに、我々は小規模モデルにおける競争力の向上を観察し、リソース制約のあるシナリオにおける推論品質の向上の可能性を強調した。
関連論文リスト
- SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment [49.86376148975563]
大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
論文 参考訳(メタデータ) (2025-09-04T06:50:47Z) - Towards Consistent Long-Term Pose Generation [0.0]
最小限の文脈から連続座標空間のポーズを直接生成する新しいワンステージアーキテクチャを提案する。
私たちの重要なイノベーションは、中間表現やトークンベースの生成の必要性を排除することです。
提案手法は,特に長期発生シナリオにおいて,既存の量子化法と自己回帰法を著しく上回っている。
論文 参考訳(メタデータ) (2025-07-24T12:57:22Z) - Sparse Causal Discovery with Generative Intervention for Unsupervised Graph Domain Adaptation [27.5393760658806]
Unsupervised Graph Domain Adaptation (UGDA)は、ラベル付きソースドメイングラフを利用して、分散シフトにもかかわらずラベルなしのターゲットドメインで効果的なパフォーマンスを実現する。
スパース因果モデリングと動的介入機構によりグラフ表現の安定化を実現する新しい手法であるSLOGANを提案する。
論文 参考訳(メタデータ) (2025-07-10T10:42:21Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Intrinsic Tensor Field Propagation in Large Language Models: A Novel Approach to Contextual Information Flow [0.0]
内在的場伝播は、様々な言語構造にわたる文脈的保持、依存性の解決、推論を改善する。
オープンソーストランスフォーマーベースのモデルで行った実験では、様々な言語構造にわたる文脈保持、依存関係の解決、推論において測定可能な改善が提供されている。
論文 参考訳(メタデータ) (2025-01-31T08:32:32Z) - Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment [0.0]
本稿では,トランス層内の学習表現を動的に調整する確率的層配向戦略を提案する。
急激なトピックシフトと論理的不整合を軽減し、特にシークエンスが標準の注意窓の制約を超えるシナリオにおいて。
SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションへの実用的なデプロイに適している。
論文 参考訳(メタデータ) (2025-01-29T12:46:42Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。