論文の概要: MetaGrad: Adaptation using Multiple Learning Rates in Online Learning
- arxiv url: http://arxiv.org/abs/2102.06622v1
- Date: Fri, 12 Feb 2021 17:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 22:36:26.528698
- Title: MetaGrad: Adaptation using Multiple Learning Rates in Online Learning
- Title(参考訳): MetaGrad:オンライン学習における複数学習率を用いた適応
- Authors: Tim van Erven, Wouter M. Koolen, Dirk van der Hoeven
- Abstract要約: 一般的な凸損失に対して堅牢なオンライン凸最適化のための新しい適応法であるMetaGradは、幅広い特殊機能に対してより高速なレートを実現します。
ベンチマークオンライン分類と回帰タスクでMetaGradのすべてのバージョンを評価し、オンライングラデーション下降とAdaGradの両方を一貫して上回ります。
- 参考スコア(独自算出の注目度): 30.358800140952276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We provide a new adaptive method for online convex optimization, MetaGrad,
that is robust to general convex losses but achieves faster rates for a broad
class of special functions, including exp-concave and strongly convex
functions, but also various types of stochastic and non-stochastic functions
without any curvature. We prove this by drawing a connection to the Bernstein
condition, which is known to imply fast rates in offline statistical learning.
MetaGrad further adapts automatically to the size of the gradients. Its main
feature is that it simultaneously considers multiple learning rates, which are
weighted directly proportional to their empirical performance on the data using
a new meta-algorithm. We provide three versions of MetaGrad. The full matrix
version maintains a full covariance matrix and is applicable to learning tasks
for which we can afford update time quadratic in the dimension. The other two
versions provide speed-ups for high-dimensional learning tasks with an update
time that is linear in the dimension: one is based on sketching, the other on
running a separate copy of the basic algorithm per coordinate. We evaluate all
versions of MetaGrad on benchmark online classification and regression tasks,
on which they consistently outperform both online gradient descent and AdaGrad.
- Abstract(参考訳): 一般凸損失に対して頑健であるが,exp-concave や strong convex 関数を含む幅広い特殊関数に対してより高速な速度を実現するとともに,曲率を伴わない様々なタイプの確率的・非確率的関数を実現する,オンライン凸最適化のための新しい適応的手法 metagrad を提供する。
我々は、オフライン統計学習における速度を暗示することで知られるベルンシュタイン条件への接続を描いてこれを証明した。
metagradはさらに勾配のサイズに自動的に適応する。
その主な特徴は、複数の学習率を同時に考慮し、新しいメタアルゴリズムを用いてデータ上の経験的パフォーマンスに直接比例して重み付けされていることである。
MetaGradには3つのバージョンがあります。
フルマトリックスバージョンは完全な共分散行列を維持しており、次元の更新時間を2倍にすることができる学習タスクに適用できる。
他の2つのバージョンは、高次元学習タスクのスピードアップを提供し、その1つはスケッチに基づいており、もう1つは座標ごとに基本アルゴリズムのコピーを別々に実行している。
ベンチマークオンライン分類と回帰タスクでMetaGradのすべてのバージョンを評価し、オンライングラデーション下降とAdaGradの両方を一貫して上回ります。
関連論文リスト
- Making Scalable Meta Learning Practical [40.24886572503001]
メタ学習は、その膨大な計算/メモリコスト、トレーニング不安定性、効率的な分散トレーニングサポートの欠如により、スケーラビリティの低下に悩まされてきた。
本研究では,暗黙の識別アルゴリズムとシステムの両方の進歩を組み合わせたSAMAを導入することで,スケーラブルなメタ学習の実現に注力する。
我々は,SAMAに基づくデータ最適化により,BERTやRoBERTaの大規模言語モデルによるテキスト分類精度が一貫した改善が達成され,画像分類タスクによる小型・大規模データプルーニングにおいて,最先端の処理結果が得られることを示す。
論文 参考訳(メタデータ) (2023-10-09T12:45:13Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Meta-Value Learning: a General Framework for Learning with Learning
Awareness [1.4323566945483497]
メタバリューによって測定された長期的展望によって共同政策を判断することを提案する。
最適化のメタゲームにQラーニングの形式を適用し、ポリシー更新の連続的な行動空間を明示的に表現する必要がないようにする。
論文 参考訳(メタデータ) (2023-07-17T21:40:57Z) - Efficiently Learning the Graph for Semi-supervised Learning [4.518012967046983]
共役勾配法を用いてスパース族から最良のグラフを効率的に学習する方法を示す。
我々の手法は、軽度な滑らかさの仮定の下で、オンラインのサブ線形後悔でグラフを効率的に学習するためにも利用できる。
提案手法を実装し,ベンチマークデータセット上の学習グラフを用いた半教師付き学習の先行研究に対して,大幅な(sim$10-100x)スピードアップを示す。
論文 参考訳(メタデータ) (2023-06-12T13:22:06Z) - Hyperbolic Vision Transformers: Combining Improvements in Metric
Learning [116.13290702262248]
計量学習のための新しい双曲型モデルを提案する。
本手法のコアとなるのは、双曲空間にマッピングされた出力埋め込みを備えた視覚変換器である。
4つのデータセットに6つの異なる定式化を施したモデルの評価を行った。
論文 参考訳(メタデータ) (2022-03-21T09:48:23Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Meta-Learning with Adjoint Methods [16.753336086160598]
メタラーニング(MAML)は、タスクファミリーの優れた初期化を見つけるために広く使われている。
その成功にもかかわらず、MAMLにおける重要な課題は、サンプリングされたタスクに対する長いトレーニング軌跡の初期化で勾配を計算することである。
本稿では,この問題を解決するためにAdjoint MAML (A-MAML)を提案する。
人工メタ学習と実世界のメタ学習の両方において、我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2021-10-16T01:18:50Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Learnable Graph Matching: Incorporating Graph Partitioning with Deep
Feature Learning for Multiple Object Tracking [58.30147362745852]
フレーム間のデータアソシエーションは、Multiple Object Tracking(MOT)タスクの中核にある。
既存の手法は、主にトラックレットとフレーム内検出の間のコンテキスト情報を無視する。
そこで本研究では,学習可能なグラフマッチング手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。