論文の概要: Mitigating Attention Localization in Small Scale: Self-Attention Refinement via One-step Belief Propagation
- arxiv url: http://arxiv.org/abs/2509.07324v1
- Date: Tue, 09 Sep 2025 01:43:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.163663
- Title: Mitigating Attention Localization in Small Scale: Self-Attention Refinement via One-step Belief Propagation
- Title(参考訳): 小さめの注意位置の緩和:一段階の信念伝播による自己注意の抑制
- Authors: Nakyung Lee, Yeongoon Kim, Minhae Oh, Suhwan Kim, Jin Woo Koo, Hyewon Jo, Jungwoo Lee,
- Abstract要約: 本稿では,マルチホップ関係を信念伝達プロセスを通じて注入する改良フレームワークを提案する。
Global Token Dependency (GTD) は、アテンショングラフ内のマルチホップ接続の相対的寄与をキャプチャする。
我々は,小規模モデルにおける競争力の向上を観察し,資源制約シナリオにおける推論品質の向上の可能性を強調した。
- 参考スコア(独自算出の注目度): 4.454269565339592
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based self-attention mechanism serves as the core of modern language models, yet it often suffers from localization, where attentions collapse onto a limited subset of tokens and fail to capture long-range dependencies. To address this issue, we propose Self-Attention One-step Belief Propagation (SAOBP), a refinement framework that injects multi-hop relationships through a belief propagation process. To interpret and quantify these interactions, we introduce Global Token Dependency (GTD) that captures the relative contribution of multihop connections within the attention graph. Empirical results indicate that SAOBP helps prevent entropy collapse in deeper layers and adaptively maintains GTD at task-appropriate levels, thereby supporting improvements in model performance. Importantly, we observe competitive gains in small-scale models, highlighting its potential for improving inference quality in resource-constrained scenarios.
- Abstract(参考訳): トランスフォーマーベースのセルフアテンションメカニズムは、モダン言語モデルのコアとして機能するが、しばしばローカライゼーションに悩まされる。
この問題に対処するため,我々は,信仰伝播プロセスを通じてマルチホップ関係を注入する改良フレームワークSAOBP(Self-Attention One-step Belief Propagation)を提案する。
これらの相互作用を解釈し、定量化するために、注意グラフ内のマルチホップ接続の相対的寄与をキャプチャするGTD(Global Token Dependency)を導入する。
実験結果から,SAOBPは深い層におけるエントロピー崩壊を防止し,タスクに適したレベルでGTDを適応的に維持し,モデル性能の向上を支援することが示唆された。
重要なことに、我々は小規模モデルにおける競争力の向上を観察し、リソース制約のあるシナリオにおける推論品質の向上の可能性を強調した。
関連論文リスト
- State Rank Dynamics in Linear Attention LLMs [37.607046806053035]
州の階級階層化は、線形アテンションヘッド間で異なるスペクトル分岐によって特徴づけられる。
低ランクの頭部はモデル推論に欠かせないが、高ランクの頭部は顕著な冗長性を示す。
我々は,KVキャッシュのオーバーヘッドを38.9%削減し,モデル精度を大きく維持するゼロショット戦略であるJoint Rank-Norm Pruningを提案する。
論文 参考訳(メタデータ) (2026-02-02T15:00:42Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Localist LLMs -- A Mathematical Framework for Dynamic Locality Control [0.0]
鍵となる革新はローカリティダイヤル(Locality dial)であり、モデル再トレーニングを必要とせず、トレーニングと推論の両方で局所化の度合いを動的に制御する調整可能なパラメータである。
群間隔のペナルティが一定のしきい値を超えると、モデルの注意機構は意味論的に関連するブロックに集中し、無視可能な誤りでエントロピーが低く、忠実度が高いことを証明する。
論文 参考訳(メタデータ) (2025-10-10T12:44:59Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - SelfAug: Mitigating Catastrophic Forgetting in Retrieval-Augmented Generation via Distribution Self-Alignment [49.86376148975563]
大規模言語モデル(LLM)は、様々なタスクを理解し実行する能力を通じて自然言語処理に革命をもたらした。
教師付き微調整、特にRetrieval-Augmented Generation (RAG)のシナリオでは、しばしば破滅的な忘れが生じる。
本稿では,モデルのセマンティック分布を保存するために,入力シーケンスロジットをアライメントする自己分布アライメント手法であるSelfAugを提案する。
論文 参考訳(メタデータ) (2025-09-04T06:50:47Z) - Towards Consistent Long-Term Pose Generation [0.0]
最小限の文脈から連続座標空間のポーズを直接生成する新しいワンステージアーキテクチャを提案する。
私たちの重要なイノベーションは、中間表現やトークンベースの生成の必要性を排除することです。
提案手法は,特に長期発生シナリオにおいて,既存の量子化法と自己回帰法を著しく上回っている。
論文 参考訳(メタデータ) (2025-07-24T12:57:22Z) - Sparse Causal Discovery with Generative Intervention for Unsupervised Graph Domain Adaptation [27.5393760658806]
Unsupervised Graph Domain Adaptation (UGDA)は、ラベル付きソースドメイングラフを利用して、分散シフトにもかかわらずラベルなしのターゲットドメインで効果的なパフォーマンスを実現する。
スパース因果モデリングと動的介入機構によりグラフ表現の安定化を実現する新しい手法であるSLOGANを提案する。
論文 参考訳(メタデータ) (2025-07-10T10:42:21Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Intrinsic Tensor Field Propagation in Large Language Models: A Novel Approach to Contextual Information Flow [0.0]
内在的場伝播は、様々な言語構造にわたる文脈的保持、依存性の解決、推論を改善する。
オープンソーストランスフォーマーベースのモデルで行った実験では、様々な言語構造にわたる文脈保持、依存関係の解決、推論において測定可能な改善が提供されている。
論文 参考訳(メタデータ) (2025-01-31T08:32:32Z) - Structured Context Recomposition for Large Language Models Using Probabilistic Layer Realignment [0.0]
本稿では,トランス層内の学習表現を動的に調整する確率的層配向戦略を提案する。
急激なトピックシフトと論理的不整合を軽減し、特にシークエンスが標準の注意窓の制約を超えるシナリオにおいて。
SCRは処理時間を適度に増加させるが、メモリオーバーヘッドは実現可能な限界内に留まり、自動回帰生成アプリケーションへの実用的なデプロイに適している。
論文 参考訳(メタデータ) (2025-01-29T12:46:42Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - Untangling tradeoffs between recurrence and self-attention in neural
networks [81.30894993852813]
本稿では,再帰的ネットワークにおける自己注意が勾配伝播に与える影響を公式に分析する。
長期的な依存関係を捉えようとするとき、勾配をなくすことの問題を緩和することを証明する。
本稿では,スパース自己アテンションを反復的にスケーラブルに利用するための関連性スクリーニング機構を提案する。
論文 参考訳(メタデータ) (2020-06-16T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。