論文の概要: Better Embeddings with Coupled Adam
- arxiv url: http://arxiv.org/abs/2502.08441v2
- Date: Thu, 13 Feb 2025 15:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:57.522731
- Title: Better Embeddings with Coupled Adam
- Title(参考訳): 結合されたAdamによるより良い埋め込み
- Authors: Felix Stollenwerk, Tobias Stollenwerk,
- Abstract要約: 我々はAdamの2番目の瞬間が異方性埋め込みの原因であり、問題を緩和するためにCoupled Adamと呼ばれる修正版を提案する。
実験の結果、Coupled Adamは埋め込みの品質を大幅に向上する一方で、大規模なデータセット上での上流および下流のパフォーマンスも向上することが示された。
- 参考スコア(独自算出の注目度): 0.8241166553276398
- License:
- Abstract: Despite their remarkable capabilities, LLMs learn word representations that exhibit the undesirable yet poorly understood feature of anisotropy. In this paper, we argue that the second moment in Adam is a cause of anisotropic embeddings, and suggest a modified optimizer called Coupled Adam to mitigate the problem. Our experiments demonstrate that Coupled Adam significantly improves the quality of embeddings, while also leading to better upstream and downstream performance on large enough datasets.
- Abstract(参考訳): 優れた能力にもかかわらず、LLMは望ましくないが未理解の異方性の特徴を示す単語表現を学習する。
本稿では,Adamの2番目の瞬間が異方性埋め込みの原因であり,この問題を緩和するためにCoupled Adamと呼ばれる修正オプティマイザを提案する。
実験の結果、Coupled Adamは埋め込みの品質を大幅に向上する一方で、大規模なデータセット上での上流および下流のパフォーマンスも向上することが示された。
関連論文リスト
- Understanding Adam Requires Better Rotation Dependent Assumptions [32.83347199566283]
グラディエント・Descent (SGD) に対するアダムの優位性は、包括的な理論的な説明を欠いている。
トレーニング変圧器におけるアダムの性能はパラメータ空間のランダムな回転の下で劣化することを示す。
これは、従来の回転不変仮定がアダムの利点を理論的に捉えるには不十分であることを示している。
論文 参考訳(メタデータ) (2024-10-25T20:53:03Z) - On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文 参考訳(メタデータ) (2024-10-07T09:36:43Z) - The Implicit Bias of Adam on Separable Data [27.451499849532176]
トレーニングデータが線形分離可能である場合、Adamは学習率の低下を達成する線形勾配に収束することを示す。
我々の結果は、アダムと(確率的な)子孫の違いを理論的観点から明らかにした。
論文 参考訳(メタデータ) (2024-06-15T14:39:37Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z) - An Adam-enhanced Particle Swarm Optimizer for Latent Factor Analysis [6.960453648000231]
本稿では,逐次PSOアルゴリズムを用いて潜在因子を改良したAdam-enhanced Hierarchical PSO-LFAモデルを提案する。
4つの実データセットに対する実験結果から,提案モデルがピアで高い予測精度を実現することを示す。
論文 参考訳(メタデータ) (2023-02-23T12:10:59Z) - Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。
アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。
本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文 参考訳(メタデータ) (2022-08-21T14:57:47Z) - Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。
AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。
我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文 参考訳(メタデータ) (2022-01-31T21:00:55Z) - A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。
我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文 参考訳(メタデータ) (2021-12-07T02:47:58Z) - Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。
我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。
画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-11-24T09:28:53Z) - EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。
この発見に基づいて,Adam の新たな変種 EAdam を提案する。
当社の手法はAdamと比較して大幅に改善できる。
論文 参考訳(メタデータ) (2020-11-04T06:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。