論文の概要: Efficient Model-Based Concave Utility Reinforcement Learning through
Greedy Mirror Descent
- arxiv url: http://arxiv.org/abs/2311.18346v1
- Date: Thu, 30 Nov 2023 08:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 17:31:46.858602
- Title: Efficient Model-Based Concave Utility Reinforcement Learning through
Greedy Mirror Descent
- Title(参考訳): グレディミラーによる効率的なモデルベース凹凸ユーティリティ強化学習
- Authors: Bianca Marin Moreno (Thoth), Margaux Br\'eg\`ere (EDF R&D, LPSM, SU),
Pierre Gaillard (Thoth), Nadia Oudjane (EDF R&D)
- Abstract要約: Concave Utility Reinforcement Learning problem(英語版)は古典的なベルマン方程式を無効化する。
有限地平面マルコフ決定過程におけるCURLの新しいアルゴリズムであるMD-CURLを紹介する。
本稿では,MD-CURLをオンライン・エピソードベース・セッティングに適応させる新しい手法であるGreedy MD-CURLを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many machine learning tasks can be solved by minimizing a convex function of
an occupancy measure over the policies that generate them. These include
reinforcement learning, imitation learning, among others. This more general
paradigm is called the Concave Utility Reinforcement Learning problem (CURL).
Since CURL invalidates classical Bellman equations, it requires new algorithms.
We introduce MD-CURL, a new algorithm for CURL in a finite horizon Markov
decision process. MD-CURL is inspired by mirror descent and uses a non-standard
regularization to achieve convergence guarantees and a simple closed-form
solution, eliminating the need for computationally expensive projection steps
typically found in mirror descent approaches. We then extend CURL to an online
learning scenario and present Greedy MD-CURL, a new method adapting MD-CURL to
an online, episode-based setting with partially unknown dynamics. Like MD-CURL,
the online version Greedy MD-CURL benefits from low computational complexity,
while guaranteeing sub-linear or even logarithmic regret, depending on the
level of information available on the underlying dynamics.
- Abstract(参考訳): 多くの機械学習タスクは、それらを生成するポリシーに対する占有度尺度の凸関数を最小化することで解決できる。
これには強化学習、模倣学習などが含まれる。
このより一般的なパラダイムは、CURL(Concave Utility Reinforcement Learning problem)と呼ばれる。
CURLは古典的なベルマン方程式を無効にするため、新しいアルゴリズムが必要である。
有限地平面マルコフ決定過程におけるCURLの新しいアルゴリズムであるMD-CURLを紹介する。
MD-CURLはミラー降下にインスパイアされ、非標準正規化を用いて収束保証と単純な閉形式解を達成し、一般にミラー降下法で見られる計算コストの高いプロジェクションステップの必要性を排除した。
次に、CURLをオンライン学習シナリオに拡張し、部分的に未知のダイナミックスを備えたオンラインエピソードベースの設定にMD-CURLを適用する新しい手法であるGreedy MD-CURLを提示する。
MD-CURLと同様に、オンライン版のGreedy MD-CURLは計算複雑性の低い利点を享受し、基礎となるダイナミックスで利用可能な情報のレベルに応じて、サブ線形あるいは対数的後悔を保証する。
関連論文リスト
- Quantum Algorithm for Sparse Online Learning with Truncated Gradient Descent [2.148134736383802]
ロジスティック回帰、SVM(Support Vector Machine)、最小二乗は統計学とコンピュータ科学のコミュニティでよく研究されている手法である。
我々は,ロジスティック回帰,SVM,最小二乗の量子スパースオンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-06T13:57:50Z) - MetaCURL: Non-stationary Concave Utility Reinforcement Learning [8.230945193151399]
非定常環境におけるエピソードループのないマルコフ決定過程におけるオンライン学習について検討する。
本稿では,非定常MDPのための最初のCURLアルゴリズムであるMetaCURLを紹介する。
論文 参考訳(メタデータ) (2024-05-30T08:17:00Z) - Inverse Concave-Utility Reinforcement Learning is Inverse Game Theory [17.62475351325657]
凹凸ユーティリティによる逆強化学習問題を考察する。
CURLは古典的なベルマン方程式を無効にするため、標準IRLの結果のほとんどは一般には適用されない。
平均場ゲームサブクラスにおける逆ゲーム理論問題と等価であることを示すことによって,I-CURLに対する実現可能な報酬の新たな定義を提案する。
論文 参考訳(メタデータ) (2024-05-29T12:07:17Z) - Efficient Methods for Non-stationary Online Learning [67.3300478545554]
本稿では, 動的後悔と適応的後悔を最適化する効率的な手法を提案し, ラウンド当たりの投影回数を$mathcalO(log T)$から$ $1$まで削減した。
本手法は,パラメータフリーオンライン学習において開発された還元機構を基礎として,非定常オンライン手法に非自明なツイストを必要とする。
論文 参考訳(メタデータ) (2023-09-16T07:30:12Z) - Online Reinforcement Learning in Markov Decision Process Using Linear
Programming [1.0878040851638]
マルコフ決定過程(MDP)におけるオンライン強化学習について検討した。
我々は,高い確率で$widetildeO(LXsqrtTA)$ regretを実現する,シンプルで効率的なモデルベースアルゴリズムを考案した。
論文 参考訳(メタデータ) (2023-03-31T22:21:41Z) - APP: Anytime Progressive Pruning [104.36308667437397]
本稿では,特にオンライン学習の場合において,ニューラルネットワークをターゲット空間でトレーニングする方法を提案する。
提案手法は,複数のアーキテクチャやデータセットにまたがるベースライン密度とAnytime OSPモデルにおいて,短時間で適度かつ長時間のトレーニングにおいて,大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-04-04T16:38:55Z) - Adaptivity and Non-stationarity: Problem-dependent Dynamic Regret for Online Convex Optimization [70.4342220499858]
本稿では,スムーズさを生かし,問題依存量による動的後悔のT$への依存を補う新しいオンラインアルゴリズムを提案する。
この結果が本質的な難易度に適応しているのは, 既往の結果よりも厳密であり, 最悪の場合, 同一レートの保護が可能であるからである。
論文 参考訳(メタデータ) (2021-12-29T02:42:59Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Masked Contrastive Representation Learning for Reinforcement Learning [202.8261654227565]
コントラスト学習を用いて個々のビデオフレームの原画素から高次特徴を抽出するCURLは,効率的なアルゴリズムである。
本稿では,連続した入力間の相関を考慮に入れたRLのための新しいアルゴリズム,マスク付きコントラスト表現学習を提案する。
DMControlスイートの16ドル環境中14ドル,Atari 2600 Gamesの26ドル環境中21ドル環境中26ドル環境中24ドルで,CURLに対する一貫した改善を実現している。
論文 参考訳(メタデータ) (2020-10-15T02:00:10Z) - CURL: Contrastive Unsupervised Representations for Reinforcement
Learning [93.57637441080603]
CURLは、コントラスト学習を用いて、生の画素から高レベルの特徴を抽出する。
DeepMind Control Suiteでは、CURLが、状態ベースの機能を使用するメソッドのサンプル効率とほぼ一致した、最初のイメージベースのアルゴリズムである。
論文 参考訳(メタデータ) (2020-04-08T17:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。