論文の概要: Zeroth-order non-convex learning via hierarchical dual averaging
- arxiv url: http://arxiv.org/abs/2109.05829v1
- Date: Mon, 13 Sep 2021 09:59:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 15:12:22.261830
- Title: Zeroth-order non-convex learning via hierarchical dual averaging
- Title(参考訳): 階層的双対平均化によるゼロ次非凸学習
- Authors: Am\'elie H\'eliou and Matthieu Martin and Panayotis Mertikopoulos and
Thibaud Rahier
- Abstract要約: 我々は、ゼロ階オンライン非標準最適化のための双対動的平均化の階層バージョンを提案する。
我々は、学習者の静的なダイナミックな後悔、すなわち、舞台後部における最良のポリシーに対して、厳密な境界を導出する。
- 参考スコア(独自算出の注目度): 26.023679256204737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a hierarchical version of dual averaging for zeroth-order online
non-convex optimization - i.e., learning processes where, at each stage, the
optimizer is facing an unknown non-convex loss function and only receives the
incurred loss as feedback. The proposed class of policies relies on the
construction of an online model that aggregates loss information as it arrives,
and it consists of two principal components: (a) a regularizer adapted to the
Fisher information metric (as opposed to the metric norm of the ambient space);
and (b) a principled exploration of the problem's state space based on an
adapted hierarchical schedule. This construction enables sharper control of the
model's bias and variance, and allows us to derive tight bounds for both the
learner's static and dynamic regret - i.e., the regret incurred against the
best dynamic policy in hindsight over the horizon of play.
- Abstract(参考訳): 本稿では,ゼロ階オンライン非凸最適化のための2次平均化の階層バージョンを提案する。すなわち,各段階において,最適化器が未知の非凸損失関数に直面している場合の学習過程をフィードバックとしてのみ受信する。
提案されたポリシーのクラスは、到着時に損失情報を集約するオンラインモデルの構築に依存しており、2つの主要なコンポーネントで構成されている。
(a)フィッシャー情報計量に適合する正則化器(周囲空間のメートル法基準とは対照的)及び
b) 適応型階層型スケジュールに基づく問題状態空間の原理的探索。
この構成により、モデルのバイアスと分散のよりシャープな制御が可能になり、学習者の静的な後悔と動的後悔の両方、つまり遊びの地平線をたどりながら最高の動的ポリシーに逆らう後悔の両方の厳密な境界を引き出すことができる。
関連論文リスト
- Controlled Learning of Pointwise Nonlinearities in Neural-Network-Like Architectures [14.93489065234423]
本稿では,階層型計算アーキテクチャにおける自由形式非線形性のトレーニングのための一般的な変分フレームワークを提案する。
傾斜制約により、1-Lipschitz安定性、堅固な非膨張性、単調性/可逆性といった特性を課すことができる。
本稿では, 非線形性を適切な(一様でない)B-スプラインベースで表現することで, 数値関数最適化問題の解法を示す。
論文 参考訳(メタデータ) (2024-08-23T14:39:27Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Visual Prompt Tuning in Null Space for Continual Learning [51.96411454304625]
既存のプロンプトチューニング手法は、継続学習(CL)における印象的な性能を示す。
本稿では,従来のタスクの特徴に代表される部分空間に直交する方向のプロンプトを調整し,各タスクを学習することを目的とする。
実際には、即時勾配予測を実装するために、実効的なヌル空間に基づく近似解が提案されている。
論文 参考訳(メタデータ) (2024-06-09T05:57:40Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Primal-dual Learning for the Model-free Risk-constrained Linear
Quadratic Regulator [0.8629912408966145]
リスク対応コントロールは、予期せぬイベントに取り組むことを約束しながら、既知のダイナミックなモデルを必要とする。
本稿では,線形システムに着目したリスク対応制御系を学習するためのモデルフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-22T04:40:15Z) - Policy Gradient Methods for the Noisy Linear Quadratic Regulator over a
Finite Horizon [3.867363075280544]
線形2次レギュレータ(LQR)問題における最適ポリシーを見つけるための強化学習法について検討する。
我々は、有限時間地平線と弱い仮定の下での状態ダイナミクスの設定に対する大域的線形収束を保証する。
基礎となるダイナミクスのモデルを仮定し、データに直接メソッドを適用する場合の結果を示す。
論文 参考訳(メタデータ) (2020-11-20T09:51:49Z) - Online non-convex optimization with imperfect feedback [33.80530308979131]
非損失を伴うオンライン学習の問題を考える。
フィードバックの観点からは、学習者が各段階における損失関数の不正確なモデル(または構成)を観測すると仮定する。
本稿では,二元平均化に基づく混合戦略学習政策を提案する。
論文 参考訳(メタデータ) (2020-10-16T16:53:13Z) - A block coordinate descent optimizer for classification problems
exploiting convexity [0.0]
隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。
線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
論文 参考訳(メタデータ) (2020-06-17T19:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。