Fugu-MT 論文翻訳(概要): Optimistic Dynamic Regret Bounds

論文の概要: Optimistic Dynamic Regret Bounds

arxiv url: http://arxiv.org/abs/2301.07530v1
Date: Wed, 18 Jan 2023 13:48:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-19 15:51:47.671489
Title: Optimistic Dynamic Regret Bounds
Title（参考訳）: 最適動的レグレット境界
Authors: Maxime Haddouche and Benjamin Guedj and Olivier Wintenberger
Abstract要約: 本研究は,専門家のアドバイスと楽観主義の概念に基づいて,古典的OLアルゴリズムの動的適応を開発する。また、これらのアドバイスを生成し、最終的には理論的および実験的保証の両方を提供する構成主義的手法を提案する。
参考スコア（独自算出の注目度）: 6.39189174942201
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Online Learning (OL) algorithms have originally been developed to guarantee good performances when comparing their output to the best fixed strategy. The question of performance with respect to dynamic strategies remains an active research topic. We develop in this work dynamic adaptations of classical OL algorithms based on the use of experts' advice and the notion of optimism. We also propose a constructivist method to generate those advices and eventually provide both theoretical and experimental guarantees for our procedures.
Abstract（参考訳）: オンライン学習(OL)アルゴリズムはもともと、アウトプットを最良の固定戦略と比較する際の優れたパフォーマンスを保証するために開発された。動的戦略に関するパフォーマンスに関する問題は現在も活発な研究トピックである。本研究は,専門家のアドバイスと楽観主義の概念に基づいて,古典的OLアルゴリズムの動的適応を開発する。また,これらのアドバイスを生成するためのコンストラクティビスト手法を提案し,最終的には提案手法の理論的および実験的保証を提供する。

関連論文リスト

Optimized projection-free algorithms for online learning: construction and worst-case analysis [16.086904272719593]
本研究は線形最適化オラクル(Frank-Wolfe)を用いたオンライン学習のためのプロジェクションフリーアルゴリズムの研究と開発である。半定値プログラミングを利用してオンラインFrank-Wolfe型アルゴリズムを数値的に設計・解析する方法を示す。
論文参考訳（メタデータ） (2025-06-06T08:22:20Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
Learning-Augmented Algorithms for Online Concave Packing and Convex Covering Problems [4.9826534303287335]
本稿では,2つの基本的な最適化設定のための学習強化アルゴリズムフレームワークを提案する。コンケーブ目的のオンラインパッキングでは、アドバイスと最先端のオンラインアルゴリズムを切り替える、単純だが包括的な戦略を提示します。我々のアルゴリズムは、アドバイスが正確であるとき、そしてアドバイスが間違っていても、最先端の古典的オンラインアルゴリズムと同等のパフォーマンスを維持しながら、不可能な結果を破ることを示した。
論文参考訳（メタデータ） (2024-11-13T04:27:25Z)
Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文参考訳（メタデータ） (2024-08-17T02:22:08Z)
A Simple Learning-Augmented Algorithm for Online Packing with Concave Objectives [4.9826534303287335]
本稿では,線形制約付きオンラインパッキング問題に対する単純な学習拡張アルゴリズムの導入と解析を行う。さらに、このような単純なブラックボックス解が最適である場合に必要かつ十分な条件を理解するという問題を提起する。
論文参考訳（メタデータ） (2024-06-05T18:39:28Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文参考訳（メタデータ） (2023-09-16T07:30:12Z)
Online Attentive Kernel-Based Temporal Difference Learning [13.94346725929798]
オンライン強化学習(RL)はその高速学習能力とデータ効率の向上により注目されている。オンラインRLは、しばしば複雑な値関数近似(VFA)と破滅的な干渉に悩まされる。 2時間スケール最適化を用いたオンラインカーネルに基づく時間差分法(OAKTD)を提案する。
論文参考訳（メタデータ） (2022-01-22T14:47:10Z)
Boosting for Online Convex Optimization [64.15578413206715]
多数の専門家とオンライン凸最適化の意思決定フレームワークを検討します。弱学習アルゴリズムは、基本クラスの専門家に対するおよその後悔を保証するメカニズムとして定義します。ベースクラスの凸船体に対するほぼ最適の後悔を保証する効率的なブースティングアルゴリズムを提供します。
論文参考訳（メタデータ） (2021-02-18T12:30:49Z)
Optimal Robustness-Consistency Trade-offs for Learning-Augmented Online Algorithms [85.97516436641533]
機械学習予測を取り入れたオンラインアルゴリズムの性能向上の課題について検討する。目標は、一貫性と堅牢性の両方を備えたアルゴリズムを設計することだ。機械学習予測を用いた競合解析のための非自明な下界の最初のセットを提供する。
論文参考訳（メタデータ） (2020-10-22T04:51:01Z)
Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。目的はオンラインで発見されるため、時間とともに変化に適応することができる。 Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文参考訳（メタデータ） (2020-07-16T16:17:09Z)
A Modern Introduction to Online Learning [15.974402990630402]
オンライン学習(オンライン学習)とは、最悪の場合における後悔の最小化の枠組みを指す。凸損失を伴うオンライン学習のための一階と二階のアルゴリズムを提示する。
論文参考訳（メタデータ） (2019-12-31T08:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。