論文の概要: Meta-Learning Adversarial Bandit Algorithms
- arxiv url: http://arxiv.org/abs/2307.02295v2
- Date: Wed, 1 Nov 2023 16:15:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 17:15:33.825374
- Title: Meta-Learning Adversarial Bandit Algorithms
- Title(参考訳): メタ学習適応帯域幅アルゴリズム
- Authors: Mikhail Khodak, Ilya Osadchiy, Keegan Harris, Maria-Florina Balcan,
Kfir Y. Levy, Ron Meir, Zhiwei Steven Wu
- Abstract要約: 我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
- 参考スコア(独自算出の注目度): 55.72892209124227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study online meta-learning with bandit feedback, with the goal of
improving performance across multiple tasks if they are similar according to
some natural similarity measure. As the first to target the adversarial
online-within-online partial-information setting, we design meta-algorithms
that combine outer learners to simultaneously tune the initialization and other
hyperparameters of an inner learner for two important cases: multi-armed
bandits (MAB) and bandit linear optimization (BLO). For MAB, the meta-learners
initialize and set hyperparameters of the Tsallis-entropy generalization of
Exp3, with the task-averaged regret improving if the entropy of the
optima-in-hindsight is small. For BLO, we learn to initialize and tune online
mirror descent (OMD) with self-concordant barrier regularizers, showing that
task-averaged regret varies directly with an action space-dependent measure
they induce. Our guarantees rely on proving that unregularized
follow-the-leader combined with two levels of low-dimensional hyperparameter
tuning is enough to learn a sequence of affine functions of non-Lipschitz and
sometimes non-convex Bregman divergences bounding the regret of OMD.
- Abstract(参考訳): オンラインメタラーニングをバンディットフィードバックで研究し,類似点がある場合,複数のタスクにまたがるパフォーマンス向上を目標とした。
オンライン・オンライン・オンライン・パーシャル・インフォメーション・セッティングを最初にターゲットとしたメタアルゴリズムを設計し、外部学習者を組み合わせて内部学習者の初期化や他のハイパーパラメータを同時に調整する。
mab の場合、メタリアナーは exp3 の tsallis-entropy generalization のハイパーパラメータを初期化し、設定し、opima-in-hindsight のエントロピーが小さい場合、タスク平均的な後悔が改善される。
BLOの場合、オンラインミラー降下(OMD)を自己協和障壁正規化器で初期化し、チューニングすることを学び、タスク平均の後悔は、それらが引き起こすアクション空間依存尺度と直接的に異なることを示す。
我々の保証は、非正規化追従型リーダと低次元ハイパーパラメータチューニングの2つのレベルが組み合わさって、非Lipschitzのアフィン関数の列を学習するのに十分であることを示すことに依存している。
関連論文リスト
- End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Multi-behavior Self-supervised Learning for Recommendation [36.42241501002167]
本稿では,適応最適化手法とともに,MBSSL(Multi-Behavior Self-Supervised Learning)フレームワークを提案する。
具体的には、行動多重度と依存性をキャプチャする自己認識機構を組み込んだ行動認識型グラフニューラルネットワークを考案する。
5つの実世界のデータセットの実験は、MBSSLが10の最先端技術(SOTA)ベースライン上で得た一貫した改善を示している。
論文 参考訳(メタデータ) (2023-05-22T15:57:32Z) - Learning towards Synchronous Network Memorizability and Generalizability
for Continual Segmentation across Multiple Sites [52.84959869494459]
臨床実践では、複数のサイトから連続的なデータストリームを継続的に学習するために、セグメンテーションネットワークが必要であることが多い。
既存の方法は、通常、以前のサイトのネットワーク記憶可能性や、目に見えないサイトの一般化可能性に制限される。
本稿では,SMG学習フレームワークの提案により,同期記憶可能性と一般化可能性の問題に取り組むことを目的とする。
論文 参考訳(メタデータ) (2022-06-14T13:04:36Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - Learning-to-learn non-convex piecewise-Lipschitz functions [44.6133187924678]
両機械学習アルゴリズムに適用可能な非タスクであるピースワイズ・リプシッツ関数に対するアルゴリズムのメタラーニングを分析する。
複数のオンライン学習タスクからアルゴリズムのステップサイズの両方を学習する実用的なメタ学習手法を提案する。
論文 参考訳(メタデータ) (2021-08-19T16:22:48Z) - Fast and Scalable Adversarial Training of Kernel SVM via Doubly
Stochastic Gradients [34.98827928892501]
自然例とほとんど区別できない例を生成することで敵攻撃は、学習モデルに深刻な脅威をもたらす。
サポートベクトルマシン(SVM)は、現在のディープラーニング時代においても、古典的ながら重要な学習アルゴリズムである。
本稿では,最も有望な防御技術であるadv-SVMを提案する。
論文 参考訳(メタデータ) (2021-07-21T08:15:32Z) - Large-Scale Meta-Learning with Continual Trajectory Shifting [76.29017270864308]
メタリアナーがより多くの内部勾配ステップをとれるようにすることで、ヘテロジニアスタスクや大規模タスクの構造をよりよく把握できることを示す。
メタ更新の頻度を増やすために、タスク固有のパラメータの必要なシフトを推定することを提案する。
このアルゴリズムは, 一般化性能と収束性の両方において, 先行する一階メタ学習法を大きく上回っていることを示す。
論文 参考訳(メタデータ) (2021-02-14T18:36:33Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。