Fugu-MT 論文翻訳(概要): Meta-strategy for Learning Tuning Parameters with Guarantees

論文の概要: Meta-strategy for Learning Tuning Parameters with Guarantees

arxiv url: http://arxiv.org/abs/2102.02504v1
Date: Thu, 4 Feb 2021 09:32:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-05 16:34:25.116760
Title: Meta-strategy for Learning Tuning Parameters with Guarantees
Title（参考訳）: 保証付きチューニングパラメータの学習のためのメタストラテジー
Authors: Dimitri Meunier and Pierre Alquier
Abstract要約: オンラインのメタ学習シナリオを考察し、過去のタスクからパラメータを学習するためのメタストラテジーを提案する。我々の戦略は後悔の限界の最小化に基づいている。
参考スコア（独自算出の注目度）: 0.6599344783327052
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online gradient methods, like the online gradient algorithm (OGA), often depend on tuning parameters that are difficult to set in practice. We consider an online meta-learning scenario, and we propose a meta-strategy to learn these parameters from past tasks. Our strategy is based on the minimization of a regret bound. It allows to learn the initialization and the step size in OGA with guarantees. We provide a regret analysis of the strategy in the case of convex losses. It suggests that, when there are parameters $\theta_1,\dots,\theta_T$ solving well tasks $1,\dots,T$ respectively and that are close enough one to each other, our strategy indeed improves on learning each task in isolation.
Abstract（参考訳）: オンライングラデーションアルゴリズム(OGA)のようなオンライングラデーションメソッドは、実際には設定が難しいパラメータのチューニングに依存します。オンラインメタラーニングシナリオを検討し、過去のタスクからこれらのパラメータを学習するためのメタストラテジーを提案します。我々の戦略は後悔の限界の最小化に基づいている。これにより、OGAの初期化とステップサイズを保証で学ぶことができる。我々は,凸損失の場合の戦略の後悔の分析を行う。パラメータが$\theta_1,\dots,\theta_T$で、それぞれ1,\dots,T$で、互いに十分近い場合、我々の戦略は、それぞれのタスクを独立して学習することを改善することを示唆している。

関連論文リスト

Learning to Cover: Online Learning and Optimization with Irreversible Decisions [50.5775508521174]
後悔は$Thetaleft(mfrac12cdotfrac11-2-Tright)$で半直線的に成長するので、指数関数的に$Theta(sqrtm)$に収束する。これらの調査結果は、限定的なオンライン学習と最適化の利点を浮き彫りにしている。
論文参考訳（メタデータ） (2024-06-20T23:00:25Z)
Data-Efficient and Robust Task Selection for Meta-Learning [1.4557421099695473]
本稿では,データ効率とロバストタスク選択(DERTS)アルゴリズムを提案する。 DERTSはタスクプールからタスクプールの重み付けされたサブセットを選択し、メタトレーニング段階におけるタスクプールの全勾配の近似誤差を最小化する。既存のアルゴリズムとは異なり、DERTSはトレーニングのためにアーキテクチャの変更を一切必要とせず、サポートセットとクエリセットの両方でノイズの多いラベルデータを処理できる。
論文参考訳（メタデータ） (2024-05-11T19:47:27Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文参考訳（メタデータ） (2023-09-16T07:30:12Z)
Iterative Reweighted Least Squares Networks With Convergence Guarantees for Solving Inverse Imaging Problems [12.487990897680422]
解析に基づく画像正規化における画像再構成タスクの新しい最適化手法を提案する。そのような正規化子は $ell_pp$-vector および $mathcalS_pp$ Schatten-matrix 準ノルムの重み付き拡張に対応するポテンシャル関数を用いてパラメータ化する。提案する最小化戦略の収束保証により,メモリ効率の高い暗黙バックプロパゲーション方式により,そのような最適化を成功させることができることを示す。
論文参考訳（メタデータ） (2023-08-10T17:59:46Z)
The Best of Both Worlds: Reinforcement Learning with Logarithmic Regret and Policy Switches [84.54669549718075]
漸進的強化学習(RL)における後悔の最小化問題について検討する。一般関数クラスと一般モデルクラスで学ぶことに集中する。対数的後悔境界は$O(log T)$スイッチングコストのアルゴリズムによって実現可能であることを示す。
論文参考訳（メタデータ） (2022-03-03T02:55:55Z)
Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文参考訳（メタデータ） (2022-03-02T22:35:58Z)
Adaptive Multi-Goal Exploration [118.40427257364729]
我々は、AdaGoalが$epsilon$-optimal goal-conditioned policyを学習する目的を達成するためにどのように使えるかを示す。 AdaGoalは、ゴール条件の深い強化学習のための既存の手法の高レベルなアルゴリズム構造に固定されている。
論文参考訳（メタデータ） (2021-11-23T17:59:50Z)
Dynamic Regret Analysis for Online Meta-Learning [0.0]
オンラインメタ学習フレームワークは、継続的な生涯学習設定のための強力なツールとして生まれてきた。この定式化には、メタラーナーを学ぶ外部レベルと、タスク固有のモデルを学ぶ内部レベルという2つのレベルが含まれる。グローバルな予測から環境の変化を扱う動的な後悔という観点から、パフォーマンスを確立します。本稿では,本分析を1つの設定で実施し,各イテレーションの総数に依存する局所的局所的後悔の対数論的証明を期待する。
論文参考訳（メタデータ） (2021-09-29T12:12:59Z)
Adaptation-Agnostic Meta-Training [31.749975618338638]
多くのメタ学習アルゴリズムは、インターリーブされたプロセスに定式化することができる。本稿では適応に依存しないメタトレーニング戦略を提案する。提案手法に従えば,より強力なアルゴリズムを内タスクアルゴリズムとして適用し,優れた性能を実現することができる。
論文参考訳（メタデータ） (2021-08-24T07:46:40Z)
Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文参考訳（メタデータ） (2021-02-13T12:57:51Z)
In-Loop Meta-Learning with Gradient-Alignment Reward [34.1954698584925]
本稿では,GAR(グラデーション・アライメント・アライメント・アワード)という,低コストで計算可能なメモリ節約報酬を提案する。まず、複数のデータセットを分割した混合データとして、GARを用いてデータ分布を選択する。第2に,CIFAR-10とCIFAR-100の最先端の強化戦略と競合する学習増強戦略の導出に成功していることを示す。
論文参考訳（メタデータ） (2021-02-05T16:27:08Z)
A Second look at Exponential and Cosine Step Sizes: Simplicity, Adaptivity, and Performance [23.89815527019194]
Gradient Descent(SGD)は、大規模な機械学習モデルで人気のあるツールである。ステップサイズの選択にもよるが、非常に可変である。ステップサイズを調整するための様々な戦略が提案されている。
論文参考訳（メタデータ） (2020-02-12T23:10:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。