論文の概要: Grouped Differential Attention
- arxiv url: http://arxiv.org/abs/2510.06949v1
- Date: Wed, 08 Oct 2025 12:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.485035
- Title: Grouped Differential Attention
- Title(参考訳): Grouped Differential Attention
- Authors: Junghwan Lim, Sungmin Lee, Dongseok Kim, Wai Ting Cheung, Beomgyu Kim, Taehwan Kim, Haesol Lee, Junhyeok Lee, Dongpin Oh, Eunhwan Park,
- Abstract要約: Grouped Differential Attention (GDA) は、信号保存グループとノイズ制御グループの間に不均衡な頭部割り当てを導入する新しいアプローチである。
GDAは、戦略的により多くのヘッドを信号抽出に割り当て、ノイズコントロールを減らすことで、信号焦点を著しく強化する。
この原理を、信号中心の頭部のみを選択的に複製するスケーラブルな戦略であるグループ微分成長に拡張する。
- 参考スコア(独自算出の注目度): 7.3762888407470415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The self-attention mechanism, while foundational to modern Transformer architectures, suffers from a critical inefficiency: it frequently allocates substantial attention to redundant or noisy context. Differential Attention addressed this by using subtractive attention maps for signal and noise, but its required balanced head allocation imposes rigid constraints on representational flexibility and scalability. To overcome this, we propose Grouped Differential Attention (GDA), a novel approach that introduces unbalanced head allocation between signal-preserving and noise-control groups. GDA significantly enhances signal focus by strategically assigning more heads to signal extraction and fewer to noise-control, stabilizing the latter through controlled repetition (akin to GQA). This design achieves stronger signal fidelity with minimal computational overhead. We further extend this principle to group-differentiated growth, a scalable strategy that selectively replicates only the signal-focused heads, thereby ensuring efficient capacity expansion. Through large-scale pretraining and continual training experiments, we demonstrate that moderate imbalance ratios in GDA yield substantial improvements in generalization and stability compared to symmetric baselines. Our results collectively establish that ratio-aware head allocation and selective expansion offer an effective and practical path toward designing scalable, computation-efficient Transformer architectures.
- Abstract(参考訳): 自己注意機構は、現代のトランスフォーマーアーキテクチャの基礎となっているが、重大な非効率性に悩まされている。
差分注意(differial Attention)は、信号と雑音の抽出された注意マップを使用することによってこの問題に対処するが、要求されるバランスの取れた頭部割り当ては、表現の柔軟性とスケーラビリティに厳密な制約を課す。
これを解決するために,信号保存群と雑音制御群との間に不均衡な頭部アロケーションを導入する新しい手法であるGDA(Grouped Differential Attention)を提案する。
GDAは、信号抽出により多くのヘッドを戦略的に割り当て、ノイズコントロールを減らし、制御された繰り返し(GQA)を通じて後者を安定化することで、信号焦点を著しく強化する。
この設計は、計算オーバーヘッドを最小限に抑えて、より強力な信号忠実性を実現する。
さらにこの原理を,信号中心の頭部のみを選択的に複製し,効率の良い容量拡張を実現するスケーラブルな戦略であるグループ微分成長に拡張する。
大規模プレトレーニングおよび連続訓練実験により,GDAにおける中等度不均衡比が,対称ベースラインと比較して,一般化と安定性を著しく向上することを示した。
この結果から,比対応の頭部アロケーションと選択的拡張が,スケーラブルで計算効率のよいトランスフォーマーアーキテクチャを設計する上で,効果的かつ実用的な方法であることが確認された。
関連論文リスト
- GEPO: Group Expectation Policy Optimization for Stable Heterogeneous Reinforcement Learning [43.46954951944727]
パラメータ学習とロールアウトサンプリングのプロセスを分離した異種RLアーキテクチャであるHeteroRLを提案する。
コアコンポーネントは、レイテンシに堅牢な非同期RLアルゴリズムであるグループ期待ポリシー最適化(GEPO)である。
実験の結果、GEPOはより優れた安定性を実現しており、オンラインから1800年代までのパフォーマンス低下はわずか3%である。
論文 参考訳(メタデータ) (2025-08-25T09:57:35Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Towards Robust Image Denoising with Scale Equivariance [10.894808298340994]
我々は,空間的一様雑音のトレーニングから,空間的非一様劣化の推論まで,モデルがより適応できるようになることを論じる。
本稿では,HNM (Heterogeneous Normalization Module) とIGM (Interactive Gating Module) の2つの主要コンポーネントを備える頑健なブラインド認知フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T00:06:28Z) - Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization [27.994376063677766]
トランスフォーマーモデルは、キーバリューキャッシュの増大に対する非効率なメモリ割り当てによるスケーラビリティの課題に直面している。
そこで我々は,トークン単位の計算とメモリ割り当てを動的に最適化するMixSGAを提案する。
本研究の主な特徴は,(1)重要度スコアによって導かれるトークン単位の専門家選択ルーティング機構,(2)パラメータのオーバーヘッドを最小限に抑えるためにグループ化された注意投影のウェイトシェアリング,(3)CLMにおけるトレーニングと推論の整合性を確保するための1ホットルーティング決定のための補助的損失である。
論文 参考訳(メタデータ) (2025-06-16T14:30:17Z) - Latent Diffusion Model Based Denoising Receiver for 6G Semantic Communication: From Stochastic Differential Theory to Application [11.385703484113552]
生成人工知能(GAI)を利用した新しい意味コミュニケーションフレームワークを提案する。
意味的特徴抽出のための変分オートエンコーダを組み合わせた潜在拡散モデル(LDM)に基づくセマンティックコミュニケーションフレームワークを提案する。
提案システムはゼロショットの一般化をサポートし,低SNRおよびアウト・オブ・ディストリビューション条件下での優れた性能を実現する訓練自由フレームワークである。
論文 参考訳(メタデータ) (2025-06-06T03:20:32Z) - Improved Noise Schedule for Diffusion Training [51.849746576387375]
本稿では,拡散モデルのトレーニングを強化するため,ノイズスケジュールを設計するための新しい手法を提案する。
我々は,標準のコサインスケジュールよりもノイズスケジュールの方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-07-03T17:34:55Z) - Stability and Generalization of the Decentralized Stochastic Gradient
Descent Ascent Algorithm [80.94861441583275]
本稿では,分散勾配勾配(D-SGDA)アルゴリズムの一般化境界の複雑さについて検討する。
本研究は,D-SGDAの一般化における各因子の影響を解析した。
また、最適凸凹設定を得るために一般化とバランスをとる。
論文 参考訳(メタデータ) (2023-10-31T11:27:01Z) - Calibrating Undisciplined Over-Smoothing in Transformer for Weakly Supervised Semantic Segmentation [51.14107156747967]
弱教師付きセマンティックセマンティックセマンティクス(WSSS)は、完全な教師付きアプローチよりもアノテーションが少ないため、かなりの注目を集めている。
本研究では,非学際的な過密化に対する深い注意を抑えるための適応的再活性化機構 (AReAM) を提案する。
AReAMは既存のWSSS手法と比較してセグメンテーション性能を大幅に改善し、ノイズを低減し、関連するセマンティック領域に焦点を絞る。
論文 参考訳(メタデータ) (2023-05-04T19:11:33Z) - Compressed Regression over Adaptive Networks [58.79251288443156]
分散エージェントのネットワークによって達成可能な性能を導出し,通信制約や回帰問題を解消し,適応的に解決する。
エージェントによって最適化に必要なパラメータをオンラインで学習できる最適化アロケーション戦略を考案する。
論文 参考訳(メタデータ) (2023-04-07T13:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。