論文の概要: Representation Collapse in Machine Translation Through the Lens of Angular Dispersion
- arxiv url: http://arxiv.org/abs/2602.17287v1
- Date: Thu, 19 Feb 2026 11:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.005375
- Title: Representation Collapse in Machine Translation Through the Lens of Angular Dispersion
- Title(参考訳): 角分散レンズによる機械翻訳における表現の崩壊
- Authors: Evgeniia Tokarchuk, Maya K. Nachesa, Sergey Troshin, Vlad Niculae,
- Abstract要約: 標準化された次世代予測トレーニング戦略が,表現の崩壊など,見落とされがちな成果物に繋がる可能性が示唆された。
角分散に基づく既存の正規化手法を導入し, 崩壊を緩和するだけでなく, 翻訳品質の向上も実証した。
- 参考スコア(独自算出の注目度): 12.526791012139883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern neural translation models based on the Transformer architecture are known for their high performance, particularly when trained on high-resource datasets. A standard next-token prediction training strategy, while widely adopted in practice, may lead to overlooked artifacts such as representation collapse. Previous works have shown that this problem is especially pronounced in the representation of the deeper Transformer layers, where it often fails to efficiently utilize the geometric space. Representation collapse is even more evident in end-to-end training of continuous-output neural machine translation, where the trivial solution would be to set all vectors to the same value. In this work, we analyze the dynamics of representation collapse at different levels of discrete and continuous NMT transformers throughout training. We incorporate an existing regularization method based on angular dispersion and demonstrate empirically that it not only mitigates collapse but also improves translation quality. Furthermore, we show that quantized models exhibit similar collapse behavior and that the benefits of regularization are preserved even after quantization.
- Abstract(参考訳): Transformerアーキテクチャに基づく現代のニューラルトランスフォーメーションモデルは、特に高リソースデータセットでトレーニングされた場合、高いパフォーマンスで知られている。
標準的な次世代予測トレーニング戦略は、実際には広く採用されているが、表現の崩壊のような見落とされてしまう可能性がある。
従来の研究では、この問題は特に深いトランスフォーマー層の表現において顕著であり、幾何学的空間を効率的に利用できないことが多かった。
表現崩壊は、全てのベクトルを同じ値に設定する自明な解法である連続出力ニューラルマシン翻訳のエンドツーエンドの訓練においてさらに明らかである。
本研究では,NMT変圧器の異なるレベルにおける表現崩壊のダイナミクスを,トレーニングを通して解析する。
角分散に基づく既存の正規化手法を導入し, 崩壊を緩和するだけでなく, 翻訳品質の向上も実証した。
さらに、量子化モデルも同様の崩壊挙動を示し、正則化の利点は量子化後にも保存されることを示す。
関連論文リスト
- SIGMA: Scalable Spectral Insights for LLM Collapse [51.863164847253366]
SIGMA(Spectral Inequalities for Gram Matrix Analysis)は,モデル崩壊のための統一的なフレームワークである。
行列のスペクトル上の決定論的境界を導出するベンチマークを利用することで、SIGMAは表現空間の収縮を追跡するために数学的に基底化された計量を提供する。
我々は、SIGMAが状態への遷移を効果的に捉え、崩壊のメカニズムに関する理論的知見の両方を提供することを示した。
論文 参考訳(メタデータ) (2026-01-06T19:47:11Z) - Unifying Learning Dynamics and Generalization in Transformers Scaling Law [1.5229257192293202]
大規模言語モデル(LLM)開発の基盤であるスケーリング法則は,計算資源の増加に伴うモデル性能の向上を予測している。
この研究は、変圧器に基づく言語モデルの学習力学を常微分方程式(ODE)システムとして定式化する。
本分析では,データによる計算資源のスケールとして,一般化誤差と既約リスクの収束を特徴付ける。
論文 参考訳(メタデータ) (2025-12-26T17:20:09Z) - Equivariance by Local Canonicalization: A Matter of Representation [11.697651699958755]
本稿では,既存のテンソル場ネットワークをより効率的な局所正規化パラダイムに変換するためのフレームワークを提案する。
このフレームワーク内では、理論的複雑性、経験的ランタイム、予測精度の観点から、異なる同変表現を体系的に比較する。
論文 参考訳(メタデータ) (2025-09-30T16:41:18Z) - Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers [33.441694038617506]
クロスエントロピーや平均二乗誤差損失で訓練されたLayerNormを用いたディープ・正規化変圧器と残留ネットワーク(ResNet)のグローバル最適性がほぼ崩壊していることを証明する。
我々の理論的結果は、コンピュータビジョンと言語データセットの実験によって支持されており、深さが大きくなるにつれて神経崩壊が実際に顕著になることを示している。
論文 参考訳(メタデータ) (2025-05-21T08:16:03Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Categorizing Semantic Representations for Neural Machine Translation [53.88794787958174]
ソースの文脈化表現に分類を導入する。
主な考え方は、スパーシリティとオーバーフィッティングを減らして一般化を強化することである。
MTデータセットを用いた実験により,提案手法は構成一般化誤差率を24%削減することを示した。
論文 参考訳(メタデータ) (2022-10-13T04:07:08Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。