論文の概要: Generalized Implicit Follow-The-Regularized-Leader
- arxiv url: http://arxiv.org/abs/2306.00201v1
- Date: Wed, 31 May 2023 21:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:20:53.241092
- Title: Generalized Implicit Follow-The-Regularized-Leader
- Title(参考訳): 一般化インプリシット追従型正規化リーダ
- Authors: Keyi Chen and Francesco Orabona
- Abstract要約: 一般化された暗黙的なFTRLは、線形化された損失と暗黙的なFTRLを持つFTRLのような既知のアルゴリズムを復元することができる。
フレームワークの柔軟性は、Mirror-Prox更新のような既知のアルゴリズムが、一般化された暗黙的FTRLのインスタンス化であることを示すことで示される。
- 参考スコア(独自算出の注目度): 15.974402990630402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new class of online learning algorithms, generalized implicit
Follow-The-Regularized-Leader (FTRL), that expands the scope of FTRL framework.
Generalized implicit FTRL can recover known algorithms, as FTRL with linearized
losses and implicit FTRL, and it allows the design of new update rules, as
extensions of aProx and Mirror-Prox to FTRL. Our theory is constructive in the
sense that it provides a simple unifying framework to design updates that
directly improve the worst-case upper bound on the regret. The key idea is
substituting the linearization of the losses with a Fenchel-Young inequality.
We show the flexibility of the framework by proving that some known algorithms,
like the Mirror-Prox updates, are instantiations of the generalized implicit
FTRL. Finally, the new framework allows us to recover the temporal variation
bound of implicit OMD, with the same computational complexity.
- Abstract(参考訳): 我々は、FTRLフレームワークの範囲を広げる新しいオンライン学習アルゴリズム、一般化された暗黙Follow-The-Regularized-Leader(FTRL)を提案する。
一般化された暗黙的なFTRLは、線形化損失と暗黙的なFTRLを持つFTRLのような既知のアルゴリズムを復元することができ、aProxとMirror-ProxのFTRLへの拡張として新しい更新ルールを設計することができる。
私たちの理論は、後悔の最悪の上限を直接的に改善するアップデートを設計するためのシンプルな統一フレームワークを提供するという意味で構成的です。
鍵となる考え方は、損失の線型化をフェンシェル・ヤングの不等式で置き換えることである。
フレームワークの柔軟性は、Mirror-Prox更新のような既知のアルゴリズムが、一般化された暗黙的FTRLのインスタンス化であることを示すことで示される。
最後に、新しいフレームワークにより、暗黙的OMDの時間的変動を同じ計算量で再現することができる。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [67.07008558942792]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Mirror Learning: A Unifying Framework of Policy Optimisation [1.6114012813668934]
総合政策改善(GPI)と信頼領域学習(TRL)は、現代強化学習(RL)における主要な枠組みである。
TRPOやPPOのような多くの最先端(SOTA)アルゴリズムは収束することが証明されていない。
RLのための事実上全てのSOTAアルゴリズムがミラー学習の例であることを示す。
論文 参考訳(メタデータ) (2022-01-07T09:16:03Z) - A Simple Reward-free Approach to Constrained Reinforcement Learning [33.813302183231556]
本稿では, 報酬のないRLと制約付きRLを橋渡しする。特に, 報酬のないRLオラクルが与えられた場合, アプローチ性や制約付きRL問題は, サンプル複雑性において無視できるオーバーヘッドで直接解決できる, メタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-12T06:27:30Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z) - Heuristic-Guided Reinforcement Learning [31.056460162389783]
Tabula rasa RLアルゴリズムは、意思決定タスクの地平線に合わせてスケールする環境相互作用や計算を必要とする。
我々のフレームワークは、有限の相互作用予算の下でRLのバイアスと分散を制御するための地平線に基づく正規化と見なすことができる。
特に,従来の知識を超越してRLエージェントを外挿できる「改良可能な」新しい概念を導入する。
論文 参考訳(メタデータ) (2021-06-05T00:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。