論文の概要: Stabilizing Transformer Training Through Consensus
- arxiv url: http://arxiv.org/abs/2601.22614v1
- Date: Fri, 30 Jan 2026 06:12:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.263158
- Title: Stabilizing Transformer Training Through Consensus
- Title(参考訳): コンセンサスによる変圧器訓練の安定化
- Authors: Shyam Venkatasubramanian, Sean Moushegian, Michael Lin, Mir Park, Ankit Singhal, Connor Lee,
- Abstract要約: コンセンサス機構は、より広範な効果的な学習率でトランスフォーマートレーニングを安定化させることを示す。
本稿では,安定性を向上しつつ,性能を保ちつつ協調的なコンセンサスアテンション・アテンション・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.9660458188486774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standard attention-based transformers are known to exhibit instability under learning rate overspecification during training, particularly at high learning rates. While various methods have been proposed to improve resilience to such overspecification by modifying the optimization procedure, fundamental architectural innovations to this end remain underexplored. In this work, we illustrate that the consensus mechanism, a drop-in replacement for attention, stabilizes transformer training across a wider effective range of learning rates. We formulate consensus as a graphical model and provide extensive empirical analysis demonstrating improved stability across learning rate sweeps on text, DNA, and protein modalities. We further propose a hybrid consensus-attention framework that preserves performance while improving stability. We provide theoretical analysis characterizing the properties of consensus.
- Abstract(参考訳): 標準的な注意に基づく変圧器は、訓練中、特に高い学習率において、学習速度過多の下で不安定性を示すことが知られている。
最適化手順を変更することで、このような過度な仕様化に対するレジリエンスを改善するための様々な手法が提案されているが、結局のところ、基本的なアーキテクチャの革新は未解明のままである。
本研究では,より広い学習範囲にわたるトランスフォーマートレーニングを安定化させるコンセンサス機構について述べる。
グラフィカルモデルとしてコンセンサスを定式化し、テキスト、DNA、タンパク質のモダリティに基づく学習速度のスイープにおける安定性の向上を実証した広範な経験的分析を提供する。
また、安定性を改善しつつ、性能を保ちつつ、協調的なコンセンサスアテンション・アテンション・フレームワークを提案する。
コンセンサスの性質を特徴付ける理論的解析を行う。
関連論文リスト
- Contrastive Knowledge Transfer and Robust Optimization for Secure Alignment of Large Language Models [9.353236468990945]
本稿では,安全アライメントとロバストネスにおける大規模言語モデルの限界に対処する。
コントラスト蒸留とノイズロバストトレーニングを組み合わせた微調整法を提案する。
その結果,本手法は知識伝達,堅牢性,全体的な安全性において,既存のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-10-31T00:54:33Z) - Adaptive Variance-Penalized Continual Learning with Fisher Regularization [0.0]
本研究は、パラメータ分散のフィッシャー重み付き非対称正規化を統合する、新しい連続学習フレームワークを提案する。
本手法はパラメータの不確かさに応じて正規化強度を動的に変調し,安定性と性能を向上させる。
論文 参考訳(メタデータ) (2025-08-15T21:49:28Z) - Structured Transformations for Stable and Interpretable Neural Computation [1.2064681974642195]
我々は、標準の非拘束アフィンパラダイムから逸脱する層レベルの変換の再構成を導入する。
我々の定式化は内部の整合性を促進し、奥行きの安定した情報フローをサポートする。
これらの構造変換を用いて構築されたモデルは、勾配条件の改善、摂動に対する感度の低減、層幅の堅牢性を示す。
論文 参考訳(メタデータ) (2025-07-31T19:26:45Z) - Predictability Shapes Adaptation: An Evolutionary Perspective on Modes of Learning in Transformers [51.992454203752686]
トランスフォーマーモデルは、IWL(In-weights Learning)とICL(In-context Learning)の2つの異なるモードで学習する。
我々は進化生物学の類似した適応戦略である遺伝的エンコーディングと表現型可塑性からインスピレーションを得ている。
我々はこれらの予測可能性の次元を実験的に運用し、トランスフォーマーのICL/IWLバランスへの影響について検討する。
論文 参考訳(メタデータ) (2025-05-14T23:31:17Z) - Enhancing Variational Autoencoders with Smooth Robust Latent Encoding [54.74721202894622]
変分オートエンコーダ(VAE)は拡散に基づく生成モデルをスケールアップする上で重要な役割を果たしている。
Smooth Robust Latent VAEは、世代品質とロバスト性の両方を向上する、新しい対向トレーニングフレームワークである。
実験により、SRL-VAEは、Nightshade攻撃や画像編集攻撃に対して、画像再構成とテキスト誘導画像編集において、生成品質とロバスト性の両方を改善することが示された。
論文 参考訳(メタデータ) (2025-04-24T03:17:57Z) - FeTrIL++: Feature Translation for Exemplar-Free Class-Incremental
Learning with Hill-Climbing [3.533544633664583]
EFCIL(Exemplar-free class-incremental Learning)は、主に破滅的な忘れが原因で大きな課題を提起する。
従来のEFCILのアプローチは、連続した微調整や安定性を通じて、プラスチックのモデルに傾くのが一般的である。
本稿では,様々なオーバーサンプリング手法と動的最適化手法の有効性を検討するための基礎的なFeTrILフレームワークを構築した。
論文 参考訳(メタデータ) (2024-03-12T08:34:05Z) - Incorporating Neuro-Inspired Adaptability for Continual Learning in
Artificial Intelligence [59.11038175596807]
継続的な学習は、現実世界に強い適応性を持つ人工知能を強化することを目的としている。
既存の進歩は主に、破滅的な忘れを克服するために記憶安定性を維持することに焦点を当てている。
本稿では,学習の可塑性を改善するため,パラメータ分布の古い記憶を適切に減衰させる汎用的手法を提案する。
論文 参考訳(メタデータ) (2023-08-29T02:43:58Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Improved Contrastive Divergence Training of Energy Based Models [33.73124278935159]
本稿では,計算が困難な勾配項を精査し,便宜のために取り残されがちなコントラッシブ・ディペンジェンス・トレーニングを改善するための適応法を提案する。
我々は,この勾配項が数値的に重要であり,実際には,推定可能でありながら,トレーニングの不安定さを避けることが重要であることを示す。
論文 参考訳(メタデータ) (2020-12-02T16:39:49Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。