Fugu-MT 論文翻訳(概要): Near-Minimax-Optimal Distributional Reinforcement Learning with a Generative Model

論文の概要: Near-Minimax-Optimal Distributional Reinforcement Learning with a Generative Model

arxiv url: http://arxiv.org/abs/2402.07598v2
Date: Mon, 04 Nov 2024 09:14:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.736474
Title: Near-Minimax-Optimal Distributional Reinforcement Learning with a Generative Model
Title（参考訳）: 生成モデルを用いた極小最適分布強化学習
Authors: Mark Rowland, Li Kevin Wenliang, Rémi Munos, Clare Lyle, Yunhao Tang, Will Dabney,
Abstract要約: モデルベース分散強化学習(RL)のための新しいアルゴリズムを提案する。生成モデル(対数因子まで)で回帰分布を近似するのがminimax-Optimalであることが証明されている。また、独立な関心を持つであろう新しい分布ベルマン方程式も導入する。
参考スコア（独自算出の注目度）: 42.89882310730102
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new algorithm for model-based distributional reinforcement learning (RL), and prove that it is minimax-optimal for approximating return distributions with a generative model (up to logarithmic factors), resolving an open question of Zhang et al. (2023). Our analysis provides new theoretical results on categorical approaches to distributional RL, and also introduces a new distributional Bellman equation, the stochastic categorical CDF Bellman equation, which we expect to be of independent interest. We also provide an experimental study comparing several model-based distributional RL algorithms, with several takeaways for practitioners.
Abstract（参考訳）: モデルベース分散強化学習(RL)のための新しいアルゴリズムを提案し、生成モデル(対数因子まで)による回帰分布の近似が最小値最適であることを証明し、Zhang et al (2023) の解答を行う。我々の分析は、分布RLに対するカテゴリー的アプローチに関する新たな理論的結果を提供し、また、独立な関心を持つであろう確率的分類的圏CDFベルマン方程式である、新しい分布的ベルマン方程式も導入する。また,複数のモデルに基づく分布RLアルゴリズムと,実践者によるいくつかのテイクアウトの比較実験を行った。

関連論文リスト

Reward-Directed Score-Based Diffusion Models via q-Learning [8.725446812770791]
生成AIのための連続時間スコアベース拡散モデルのトレーニングのための新しい強化学習(RL)法を提案する。我々の定式化は、ノイズ摂動データ分布の未知のスコア関数に対する事前学習モデルを含まない。
論文参考訳（メタデータ） (2024-09-07T13:55:45Z)
Model-Free Robust Reinforcement Learning with Sample Complexity Analysis [16.477827600825428]
本稿では,マルチレベルモンテカルロ法を用いたモデルフリーDR-RLアルゴリズムを提案する。我々は,全変動,チ二乗発散,KL発散によって定義される不確実性集合のアルゴリズムを開発する。注目すべきは、我々のアルゴリズムは、有限サンプルの複雑さを特徴とする初めてのモデルフリーDR-RLアプローチである。
論文参考訳（メタデータ） (2024-06-24T19:35:26Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
Distributional Bellman Operators over Mean Embeddings [37.5480897544168]
本研究では,帰還分布の有限次元平均埋め込みを学習し,分布強化学習のための新しい枠組みを提案する。動的プログラミングと時間差学習のための新しいアルゴリズムをこのフレームワークに基づいて提案する。
論文参考訳（メタデータ） (2023-12-09T11:36:14Z)
Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-08T16:06:29Z)
Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-29T15:00:09Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
A General Framework for Sample-Efficient Function Approximation in Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-09-30T17:59:16Z)
Distributional Reinforcement Learning with Unconstrained Monotonic Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-06T20:03:50Z)
Inferential Induction: A Novel Framework for Bayesian Reinforcement Learning [6.16852156844376]
本稿では,データから値関数分布を正確に推定する新しいフレームワークInferential Injectionについて述べる。本研究では,提案アルゴリズムが技術状況に対して競争力があることを実験的に実証した。
論文参考訳（メタデータ） (2020-02-08T06:19:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。