論文の概要: Meta-Learning Adversarial Bandits
- arxiv url: http://arxiv.org/abs/2205.14128v1
- Date: Fri, 27 May 2022 17:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 12:20:12.618997
- Title: Meta-Learning Adversarial Bandits
- Title(参考訳): メタ学習支援バンド
- Authors: Maria-Florina Balcan, Keegan Harris, Mikhail Khodak, Zhiwei Steven Wu
- Abstract要約: 本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
- 参考スコア(独自算出の注目度): 49.094361442409785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online learning with bandit feedback across multiple tasks, with the
goal of improving average performance across tasks if they are similar
according to some natural task-similarity measure. As the first to target the
adversarial setting, we design a unified meta-algorithm that yields
setting-specific guarantees for two important cases: multi-armed bandits (MAB)
and bandit linear optimization (BLO). For MAB, the meta-algorithm tunes the
initialization, step-size, and entropy parameter of the Tsallis-entropy
generalization of the well-known Exp3 method, with the task-averaged regret
provably improving if the entropy of the distribution over estimated
optima-in-hindsight is small. For BLO, we learn the initialization, step-size,
and boundary-offset of online mirror descent (OMD) with self-concordant barrier
regularizers, showing that task-averaged regret varies directly with a measure
induced by these functions on the interior of the action space. Our adaptive
guarantees rely on proving that unregularized follow-the-leader combined with
multiplicative weights is enough to online learn a non-smooth and non-convex
sequence of affine functions of Bregman divergences that upper-bound the regret
of OMD.
- Abstract(参考訳): 我々は,複数のタスクにまたがるバンディットフィードバックを用いてオンライン学習を行い,タスク間の平均パフォーマンスを改善することを目的とした。
敵のセットを最初にターゲットとして,マルチアームドバンディット(mab)とバンディット線形最適化(blo)の2つの重要なケースに対して,設定固有の保証を与える統一メタアルゴリズムを設計した。
MAB の場合、メタアルゴリズムはよく知られた Exp3 法の Tsallis-Entropy 一般化の初期化、ステップサイズ、エントロピーパラメータを調整し、推定されたオプティマ・イン・ブラインド視上の分布のエントロピーが小さい場合、タスク平均後悔は確実に改善する。
BLOの場合、オンラインミラー降下(OMD)の初期化、ステップサイズ、境界オフセットを自己一致障壁正規化器で学習し、タスク平均の後悔は、アクション空間の内部でこれらの関数によって引き起こされる指標と直接的に異なることを示す。
我々の適応的保証は、非正規化されたフォローザリーダーと乗法重みの組み合わせが、OMDの後悔の上位にあるブレグマン分岐系の非滑らかで非凸なアフィン関数列をオンライン学習するのに十分であることを示すことに依存する。
関連論文リスト
- A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Convergence of ease-controlled Random Reshuffling gradient Algorithms under Lipschitz smoothness [0.0]
非常に多くのスムーズで可能な非サイズの関数の平均を考慮し、この問題に対処するために2つの広く最小限のフレームワークを使用します。
IG/RRスキームの簡易制御による修正を定義する。
我々は、完全なバッチ勾配(L-BFGS)とIG/RR手法の実装の両方で実装を証明し、アルゴリズムが同様の計算作業を必要とすることを証明した。
論文 参考訳(メタデータ) (2022-12-04T15:26:36Z) - Experimental Design for Regret Minimization in Linear Bandits [19.8309784360219]
オンライン・リニア・バンドレットにおける後悔を最小限に抑える設計に基づく新しいアルゴリズムを提案する。
我々は、現在最先端の有限時間後悔保証を提供し、このアルゴリズムが帯域幅と半帯域幅の両方のフィードバックシステムに適用可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T17:59:19Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z) - PAC-Bayes meta-learning with implicit task-specific posteriors [37.32107678838193]
そこで本研究では,PAC-Bayesメタ学習アルゴリズムを提案する。
提案したメタ学習アルゴリズムを用いてトレーニングしたモデルは、精度よく校正されていることを示す。
論文 参考訳(メタデータ) (2020-03-05T06:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。