論文の概要: Generalized Implicit Follow-The-Regularized-Leader
- arxiv url: http://arxiv.org/abs/2306.00201v1
- Date: Wed, 31 May 2023 21:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 19:20:53.241092
- Title: Generalized Implicit Follow-The-Regularized-Leader
- Title(参考訳): 一般化インプリシット追従型正規化リーダ
- Authors: Keyi Chen and Francesco Orabona
- Abstract要約: 一般化された暗黙的なFTRLは、線形化された損失と暗黙的なFTRLを持つFTRLのような既知のアルゴリズムを復元することができる。
フレームワークの柔軟性は、Mirror-Prox更新のような既知のアルゴリズムが、一般化された暗黙的FTRLのインスタンス化であることを示すことで示される。
- 参考スコア(独自算出の注目度): 15.974402990630402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new class of online learning algorithms, generalized implicit
Follow-The-Regularized-Leader (FTRL), that expands the scope of FTRL framework.
Generalized implicit FTRL can recover known algorithms, as FTRL with linearized
losses and implicit FTRL, and it allows the design of new update rules, as
extensions of aProx and Mirror-Prox to FTRL. Our theory is constructive in the
sense that it provides a simple unifying framework to design updates that
directly improve the worst-case upper bound on the regret. The key idea is
substituting the linearization of the losses with a Fenchel-Young inequality.
We show the flexibility of the framework by proving that some known algorithms,
like the Mirror-Prox updates, are instantiations of the generalized implicit
FTRL. Finally, the new framework allows us to recover the temporal variation
bound of implicit OMD, with the same computational complexity.
- Abstract(参考訳): 我々は、FTRLフレームワークの範囲を広げる新しいオンライン学習アルゴリズム、一般化された暗黙Follow-The-Regularized-Leader(FTRL)を提案する。
一般化された暗黙的なFTRLは、線形化損失と暗黙的なFTRLを持つFTRLのような既知のアルゴリズムを復元することができ、aProxとMirror-ProxのFTRLへの拡張として新しい更新ルールを設計することができる。
私たちの理論は、後悔の最悪の上限を直接的に改善するアップデートを設計するためのシンプルな統一フレームワークを提供するという意味で構成的です。
鍵となる考え方は、損失の線型化をフェンシェル・ヤングの不等式で置き換えることである。
フレームワークの柔軟性は、Mirror-Prox更新のような既知のアルゴリズムが、一般化された暗黙的FTRLのインスタンス化であることを示すことで示される。
最後に、新しいフレームワークにより、暗黙的OMDの時間的変動を同じ計算量で再現することができる。
関連論文リスト
- Computing Optimal Regularizers for Online Linear Optimization [38.72709491927979]
FTRL(Follow-the-Regularized-Leader)アルゴリズムはオンライン線形最適化(OLO)のための一般的な学習アルゴリズムである。
本稿では,最良学習アルゴリズムの一定要素内における後悔を実現するFTRLのインスタンス化が存在することを示す。
論文 参考訳(メタデータ) (2024-10-22T18:10:50Z) - Optimism in the Face of Ambiguity Principle for Multi-Armed Bandits [6.7310264583128445]
FTRL (Follow-The-Regularized-Leader) アルゴリズムは、しばしば敵対的問題や盗賊問題に対して最適な後悔を味わう。
本稿では,逆方向と多重方向の両方の帯域に対して最適なポリシを生成する新しいFTPLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-30T16:00:23Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。