Fugu-MT 論文翻訳(概要): Generalized Implicit Follow-The-Regularized-Leader

論文の概要: Generalized Implicit Follow-The-Regularized-Leader

arxiv url: http://arxiv.org/abs/2306.00201v1
Date: Wed, 31 May 2023 21:39:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-02 19:20:53.241092
Title: Generalized Implicit Follow-The-Regularized-Leader
Title（参考訳）: 一般化インプリシット追従型正規化リーダ
Authors: Keyi Chen and Francesco Orabona
Abstract要約: 一般化された暗黙的なFTRLは、線形化された損失と暗黙的なFTRLを持つFTRLのような既知のアルゴリズムを復元することができる。フレームワークの柔軟性は、Mirror-Prox更新のような既知のアルゴリズムが、一般化された暗黙的FTRLのインスタンス化であることを示すことで示される。
参考スコア（独自算出の注目度）: 15.974402990630402
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new class of online learning algorithms, generalized implicit Follow-The-Regularized-Leader (FTRL), that expands the scope of FTRL framework. Generalized implicit FTRL can recover known algorithms, as FTRL with linearized losses and implicit FTRL, and it allows the design of new update rules, as extensions of aProx and Mirror-Prox to FTRL. Our theory is constructive in the sense that it provides a simple unifying framework to design updates that directly improve the worst-case upper bound on the regret. The key idea is substituting the linearization of the losses with a Fenchel-Young inequality. We show the flexibility of the framework by proving that some known algorithms, like the Mirror-Prox updates, are instantiations of the generalized implicit FTRL. Finally, the new framework allows us to recover the temporal variation bound of implicit OMD, with the same computational complexity.
Abstract（参考訳）: 我々は、FTRLフレームワークの範囲を広げる新しいオンライン学習アルゴリズム、一般化された暗黙Follow-The-Regularized-Leader(FTRL)を提案する。一般化された暗黙的なFTRLは、線形化損失と暗黙的なFTRLを持つFTRLのような既知のアルゴリズムを復元することができ、aProxとMirror-ProxのFTRLへの拡張として新しい更新ルールを設計することができる。私たちの理論は、後悔の最悪の上限を直接的に改善するアップデートを設計するためのシンプルな統一フレームワークを提供するという意味で構成的です。鍵となる考え方は、損失の線型化をフェンシェル・ヤングの不等式で置き換えることである。フレームワークの柔軟性は、Mirror-Prox更新のような既知のアルゴリズムが、一般化された暗黙的FTRLのインスタンス化であることを示すことで示される。最後に、新しいフレームワークにより、暗黙的OMDの時間的変動を同じ計算量で再現することができる。

関連論文リスト

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [50.30835290642069]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文参考訳（メタデータ） (2025-08-07T17:59:04Z)
Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。 IB対応推論最適化(IBRO)を提案する。
論文参考訳（メタデータ） (2025-07-24T13:14:25Z)
On the Dynamic Regret of Following the Regularized Leader: Optimism with History Pruning [10.25772015681554]
FTRL(Follow the Regularized Leader)は、オンライン凸最適化(OCO)のためのフレームワークである。これまでの研究は、動的環境におけるフレームワークの制限を強調してきた。我々は,FTRLが将来コストの楽観的な構成と過去のコストの慎重な線形化によって,既知の動的後悔境界を回復できることを示す。
論文参考訳（メタデータ） (2025-05-28T22:03:15Z)
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文参考訳（メタデータ） (2025-05-23T17:17:40Z)
The Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本稿では,不完全な情報形式ゲームにおいて,摂動がFTRL(Follow-the-Regularized-Leader)アルゴリズムをどのように改善するかを検討する。期待されるペイオフの摂動は、FTRL力学が近似平衡に達することを保証している。最後に、FTRLは非サンプリングFTRLよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-01-28T00:29:38Z)
Computing Optimal Regularizers for Online Linear Optimization [38.72709491927979]
FTRL(Follow-the-Regularized-Leader)アルゴリズムはオンライン線形最適化(OLO)のための一般的な学習アルゴリズムである。本稿では,最良学習アルゴリズムの一定要素内における後悔を実現するFTRLのインスタンス化が存在することを示す。
論文参考訳（メタデータ） (2024-10-22T18:10:50Z)
Optimism in the Face of Ambiguity Principle for Multi-Armed Bandits [6.7310264583128445]
FTRL (Follow-The-Regularized-Leader) アルゴリズムは、しばしば敵対的問題や盗賊問題に対して最適な後悔を味わう。本稿では,逆方向と多重方向の両方の帯域に対して最適なポリシを生成する新しいFTPLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-30T16:00:23Z)
REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文参考訳（メタデータ） (2024-04-25T17:20:45Z)
How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文参考訳（メタデータ） (2024-02-25T20:07:13Z)
More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文参考訳（メタデータ） (2024-02-11T13:25:53Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。 Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2022-12-29T18:25:01Z)
LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文参考訳（メタデータ） (2022-09-21T13:21:00Z)
A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文参考訳（メタデータ） (2021-06-12T20:38:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。