論文の概要: Frequency-aware SGD for Efficient Embedding Learning with Provable
Benefits
- arxiv url: http://arxiv.org/abs/2110.04844v1
- Date: Sun, 10 Oct 2021 16:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:37:13.362782
- Title: Frequency-aware SGD for Efficient Embedding Learning with Provable
Benefits
- Title(参考訳): 証明可能な利点を有する効率的な組込み学習のための周波数認識sgd
- Authors: Yan Li, Dhruv Choudhary, Xiaohan Wei, Baichuan Yuan, Bhargav
Bhushanam, Tuo Zhao, Guanghui Lan
- Abstract要約: 本稿では,各トークンに対して周波数依存学習率を適用し,トークン分布が不均衡な場合にはSGDと比較して高い高速化を示す,大規模Descent(Counter-based)対応のDescentを提案する。
- 参考スコア(独自算出の注目度): 35.543124939636044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embedding learning has found widespread applications in recommendation
systems and natural language modeling, among other domains. To learn quality
embeddings efficiently, adaptive learning rate algorithms have demonstrated
superior empirical performance over SGD, largely accredited to their
token-dependent learning rate. However, the underlying mechanism for the
efficiency of token-dependent learning rate remains underexplored. We show that
incorporating frequency information of tokens in the embedding learning
problems leads to provably efficient algorithms, and demonstrate that common
adaptive algorithms implicitly exploit the frequency information to a large
extent. Specifically, we propose (Counter-based) Frequency-aware Stochastic
Gradient Descent, which applies a frequency-dependent learning rate for each
token, and exhibits provable speed-up compared to SGD when the token
distribution is imbalanced. Empirically, we show the proposed algorithms are
able to improve or match adaptive algorithms on benchmark recommendation tasks
and a large-scale industrial recommendation system, closing the performance gap
between SGD and adaptive algorithms. Our results are the first to show
token-dependent learning rate provably improves convergence for non-convex
embedding learning problems.
- Abstract(参考訳): 埋め込み学習は、レコメンデーションシステムや自然言語モデリング、その他の領域で広く応用されている。
品質埋め込みを効率的に学習するために、適応学習率アルゴリズムはSGDよりも優れた経験的性能を示した。
しかし,トークン依存学習率の効率性に関する基礎的なメカニズムは未検討のままである。
埋め込み学習問題にトークンの周波数情報を組み込むと、確率的に効率の良いアルゴリズムが得られ、一般的な適応アルゴリズムが暗黙的にその周波数情報を利用することを示す。
具体的には、各トークンに周波数依存学習率を適用し、トークン分布の不均衡時にsgdと比較して証明可能なスピードアップを示す(カウンタベース)周波数認識確率勾配降下を提案する。
提案アルゴリズムは,SGDと適応アルゴリズムのパフォーマンスギャップを埋めるため,ベンチマーク推薦タスクと大規模産業レコメンデーションシステムにおいて適応アルゴリズムを改良あるいは適合させることができることを示す。
本研究は,非凸埋め込み学習問題に対するトークン依存学習率の収束性向上を実証する最初の試みである。
関連論文リスト
- Bandit-Driven Batch Selection for Robust Learning under Label Noise [20.202806541218944]
本稿では,SGD(Gradient Descent)トレーニングにおけるバッチ選択のための新しい手法を提案する。
本手法は,ラベルノイズの存在下での学習過程の最適化に重点を置いている。
論文 参考訳(メタデータ) (2023-10-31T19:19:01Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Learning Rate Perturbation: A Generic Plugin of Learning Rate Schedule
towards Flatter Local Minima [40.70374106466073]
LEAP(LEArning Rate Perturbation)と呼ばれる一般学習率スケジュールプラグインを提案する。
LEAPは、学習率に一定の摂動を導入することにより、モデルトレーニングを改善するために、様々な学習率スケジュールに適用することができる。
LEAPを用いたトレーニングにより、多様なデータセット上での様々なディープラーニングモデルの性能を向上させることができることを示す広範な実験を行う。
論文 参考訳(メタデータ) (2022-08-25T05:05:18Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - Online Attentive Kernel-Based Temporal Difference Learning [13.94346725929798]
オンライン強化学習(RL)はその高速学習能力とデータ効率の向上により注目されている。
オンラインRLは、しばしば複雑な値関数近似(VFA)と破滅的な干渉に悩まされる。
2時間スケール最適化を用いたオンラインカーネルに基づく時間差分法(OAKTD)を提案する。
論文 参考訳(メタデータ) (2022-01-22T14:47:10Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for
Supporting Active Learning [0.0]
本研究は,Active Learning を用いて非ラベルのインスタンスで分類モデルを誘導する FASE-AL アルゴリズムを提案する。
このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。
論文 参考訳(メタデータ) (2020-01-30T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。