Fugu-MT 論文翻訳(概要): Better Embeddings with Coupled Adam

論文の概要: Better Embeddings with Coupled Adam

arxiv url: http://arxiv.org/abs/2502.08441v2
Date: Thu, 13 Feb 2025 15:36:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-14 13:25:30.843853
Title: Better Embeddings with Coupled Adam
Title（参考訳）: 結合されたAdamによるより良い埋め込み
Authors: Felix Stollenwerk, Tobias Stollenwerk,
Abstract要約: 我々はAdamの2番目の瞬間が異方性埋め込みの原因であり、問題を緩和するためにCoupled Adamと呼ばれる修正版を提案する。実験の結果、Coupled Adamは埋め込みの品質を大幅に向上する一方で、大規模なデータセット上での上流および下流のパフォーマンスも向上することが示された。
参考スコア（独自算出の注目度）: 0.8241166553276398
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite their remarkable capabilities, LLMs learn word representations that exhibit the undesirable yet poorly understood feature of anisotropy. In this paper, we argue that the second moment in Adam is a cause of anisotropic embeddings, and suggest a modified optimizer called Coupled Adam to mitigate the problem. Our experiments demonstrate that Coupled Adam significantly improves the quality of embeddings, while also leading to better upstream and downstream performance on large enough datasets.
Abstract（参考訳）: 優れた能力にもかかわらず、LLMは望ましくないが未理解の異方性の特徴を示す単語表現を学習する。本稿では,Adamの2番目の瞬間が異方性埋め込みの原因であり,この問題を緩和するためにCoupled Adamと呼ばれる修正オプティマイザを提案する。実験の結果、Coupled Adamは埋め込みの品質を大幅に向上する一方で、大規模なデータセット上での上流および下流のパフォーマンスも向上することが示された。

関連論文リスト

In Search of Adam's Secret Sauce [11.215133680044005]
さまざまなデータ構成とスケールで1,300以上の言語モデルをトレーニングしています。符号付き運動量法は SGD よりも高速であるが、Adam と比較して一貫して性能が劣っている。この設定でAdam氏は、勾配の平均と分散を推定するための自然なオンラインアルゴリズムを実装している。
論文参考訳（メタデータ） (2025-05-27T23:30:18Z)
Adam on Local Time: Addressing Nonstationarity in RL with Relative Adam Timesteps [65.64965527170156]
我々は、強化学習に広く用いられているAdam optimiserに適応する。我々は、Adam-Relがエポック内で局所的なタイムステップを使用しており、基本的にターゲット変更後のAdamのタイムステップを0にリセットしていることを示す。次に,RLにおいて勾配ノルムの増加が生じることを示すとともに,理論モデルと観測データとの差について検討する。
論文参考訳（メタデータ） (2024-12-22T18:01:08Z)
CAdam: Confidence-Based Optimization for Online Learning [35.84013976735154]
本稿では,更新を決定する前に,各パラメータ次元の運動量と勾配との整合性を評価する信頼度に基づく最適化手法であるCAdamを紹介する。合成と実世界の両方のデータセットによる実験は、CAdamが他のよく知られたシステムを上回っていることを示している。ライブレコメンデーションシステムにおける大規模A/Bテストでは、CAdamはAdamと比較してモデル性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-29T12:00:27Z)
Understanding Adam Requires Better Rotation Dependent Assumptions [32.83347199566283]
グラディエント・Descent (SGD) に対するアダムの優位性は、包括的な理論的な説明を欠いている。トレーニング変圧器におけるアダムの性能はパラメータ空間のランダムな回転の下で劣化することを示す。これは、従来の回転不変仮定がアダムの利点を理論的に捉えるには不十分であることを示している。
論文参考訳（メタデータ） (2024-10-25T20:53:03Z)
The Implicit Bias of Adam on Separable Data [27.451499849532176]
トレーニングデータが線形分離可能である場合、Adamは学習率の低下を達成する線形勾配に収束することを示す。我々の結果は、アダムと(確率的な)子孫の違いを理論的観点から明らかにした。
論文参考訳（メタデータ） (2024-06-15T14:39:37Z)
Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。しかし、その大きなサイズは推論を遅く、計算的に高価にする。最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文参考訳（メタデータ） (2023-10-28T04:07:58Z)
Provable Adaptivity of Adam under Non-uniform Smoothness [79.25087082434975]
アダムは急速に収束するため、実用的な用途で広く採用されている。アダムの既存の収束解析は、有界な滑らかさの仮定に依存する。本稿では,ランダムにリシャッフルされたAdamの学習率の低下に伴う収束について検討する。
論文参考訳（メタデータ） (2022-08-21T14:57:47Z)
Understanding AdamW through Proximal Methods and Scale-Freeness [57.47324825501137]
Adam は $ell$ regularizer Adam-$ell$ の一般化である。 AdamWは、Adam-$ell$の更新ルールからAdam-$ell$の勾配を分離する。我々はAdamWがAdam-$ell$よりも有利であることを示し、ネットワークの勾配が複数のスケールを示すことを期待する度合いを示す。
論文参考訳（メタデータ） (2022-01-31T21:00:55Z)
A Novel Convergence Analysis for Algorithms of the Adam Family [105.22760323075008]
本稿ではAdam, AMSGrad, AdaboundなどのAdamスタイルの手法群に対する収束の一般的な証明を示す。我々の分析は非常に単純で汎用的なので、より広範な非構成最適化問題の族を解くための収束を確立するために利用することができる。
論文参考訳（メタデータ） (2021-12-07T02:47:58Z)
Adam$^+$: A Stochastic Method with Adaptive Variance Reduction [56.051001950733315]
Adamはディープラーニングアプリケーションに広く使われている最適化手法である。我々はAdam$+$(Adam-plusと発音する)という新しい方法を提案する。画像分類,言語モデリング,自動音声認識など,さまざまなディープラーニングタスクに関する実証研究により,Adam$+$がAdamを著しく上回ることを示した。
論文参考訳（メタデータ） (2020-11-24T09:28:53Z)
EAdam Optimizer: How $\epsilon$ Impact Adam [7.0552555621312605]
本稿では,Adamに対する定数$epsilon$の影響について論じる。この発見に基づいて,Adam の新たな変種 EAdam を提案する。当社の手法はAdamと比較して大幅に改善できる。
論文参考訳（メタデータ） (2020-11-04T06:39:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。