Fugu-MT 論文翻訳(概要): Meta-Learning Adversarial Bandit Algorithms

論文の概要: Meta-Learning Adversarial Bandit Algorithms

arxiv url: http://arxiv.org/abs/2307.02295v2
Date: Wed, 1 Nov 2023 16:15:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 17:15:33.825374
Title: Meta-Learning Adversarial Bandit Algorithms
Title（参考訳）: メタ学習適応帯域幅アルゴリズム
Authors: Mikhail Khodak, Ilya Osadchiy, Keegan Harris, Maria-Florina Balcan, Kfir Y. Levy, Ron Meir, Zhiwei Steven Wu
Abstract要約: 我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
参考スコア（独自算出の注目度）: 55.72892209124227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study online meta-learning with bandit feedback, with the goal of improving performance across multiple tasks if they are similar according to some natural similarity measure. As the first to target the adversarial online-within-online partial-information setting, we design meta-algorithms that combine outer learners to simultaneously tune the initialization and other hyperparameters of an inner learner for two important cases: multi-armed bandits (MAB) and bandit linear optimization (BLO). For MAB, the meta-learners initialize and set hyperparameters of the Tsallis-entropy generalization of Exp3, with the task-averaged regret improving if the entropy of the optima-in-hindsight is small. For BLO, we learn to initialize and tune online mirror descent (OMD) with self-concordant barrier regularizers, showing that task-averaged regret varies directly with an action space-dependent measure they induce. Our guarantees rely on proving that unregularized follow-the-leader combined with two levels of low-dimensional hyperparameter tuning is enough to learn a sequence of affine functions of non-Lipschitz and sometimes non-convex Bregman divergences bounding the regret of OMD.
Abstract（参考訳）: オンラインメタラーニングをバンディットフィードバックで研究し,類似点がある場合,複数のタスクにまたがるパフォーマンス向上を目標とした。オンライン・オンライン・オンライン・パーシャル・インフォメーション・セッティングを最初にターゲットとしたメタアルゴリズムを設計し、外部学習者を組み合わせて内部学習者の初期化や他のハイパーパラメータを同時に調整する。 mab の場合、メタリアナーは exp3 の tsallis-entropy generalization のハイパーパラメータを初期化し、設定し、opima-in-hindsight のエントロピーが小さい場合、タスク平均的な後悔が改善される。 BLOの場合、オンラインミラー降下(OMD)を自己協和障壁正規化器で初期化し、チューニングすることを学び、タスク平均の後悔は、それらが引き起こすアクション空間依存尺度と直接的に異なることを示す。我々の保証は、非正規化追従型リーダと低次元ハイパーパラメータチューニングの2つのレベルが組み合わさって、非Lipschitzのアフィン関数の列を学習するのに十分であることを示すことに依存している。

関連論文リスト

Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-05-28T14:14:19Z)
Mechanistic Insights into Grokking from the Embedding Layer [15.676058752772287]
ニューラルネットワークの遅延一般化であるGrokkingは、トランスフォーマーやスタタネートで観測されているが、それを駆動するコンポーネントはまだ探索されていない。埋め込みはグルーキングの中心であり、インプットの導入はモジュラー演算タスクにおける遅延一般化を誘導する。我々の手法はグルーキング力学を改良するだけでなく、バイ線形相互作用が効率的なトレーニングを妨げるトランスフォーマー最適化の幅広い課題にまで拡張する。
論文参考訳（メタデータ） (2025-05-21T15:12:34Z)
A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文参考訳（メタデータ） (2024-10-14T12:10:06Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Multi-behavior Self-supervised Learning for Recommendation [36.42241501002167]
本稿では,適応最適化手法とともに,MBSSL(Multi-Behavior Self-Supervised Learning)フレームワークを提案する。具体的には、行動多重度と依存性をキャプチャする自己認識機構を組み込んだ行動認識型グラフニューラルネットワークを考案する。 5つの実世界のデータセットの実験は、MBSSLが10の最先端技術(SOTA)ベースライン上で得た一貫した改善を示している。
論文参考訳（メタデータ） (2023-05-22T15:57:32Z)
Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文参考訳（メタデータ） (2022-05-27T17:40:32Z)
Learning-to-learn non-convex piecewise-Lipschitz functions [44.6133187924678]
両機械学習アルゴリズムに適用可能な非タスクであるピースワイズ・リプシッツ関数に対するアルゴリズムのメタラーニングを分析する。複数のオンライン学習タスクからアルゴリズムのステップサイズの両方を学習する実用的なメタ学習手法を提案する。
論文参考訳（メタデータ） (2021-08-19T16:22:48Z)
Fast and Scalable Adversarial Training of Kernel SVM via Doubly Stochastic Gradients [34.98827928892501]
自然例とほとんど区別できない例を生成することで敵攻撃は、学習モデルに深刻な脅威をもたらす。サポートベクトルマシン(SVM)は、現在のディープラーニング時代においても、古典的ながら重要な学習アルゴリズムである。本稿では,最も有望な防御技術であるadv-SVMを提案する。
論文参考訳（メタデータ） (2021-07-21T08:15:32Z)
Large-Scale Meta-Learning with Continual Trajectory Shifting [76.29017270864308]
メタリアナーがより多くの内部勾配ステップをとれるようにすることで、ヘテロジニアスタスクや大規模タスクの構造をよりよく把握できることを示す。メタ更新の頻度を増やすために、タスク固有のパラメータの必要なシフトを推定することを提案する。このアルゴリズムは, 一般化性能と収束性の両方において, 先行する一階メタ学習法を大きく上回っていることを示す。
論文参考訳（メタデータ） (2021-02-14T18:36:33Z)
Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文参考訳（メタデータ） (2021-02-07T20:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。