Fugu-MT 論文翻訳(概要): Optimizing Return Distributions with Distributional Dynamic Programming

論文の概要: Optimizing Return Distributions with Distributional Dynamic Programming

arxiv url: http://arxiv.org/abs/2501.13028v1
Date: Wed, 22 Jan 2025 17:20:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-23 18:44:14.082065
Title: Optimizing Return Distributions with Distributional Dynamic Programming
Title（参考訳）: 分散動的計画法による回帰分布の最適化
Authors: Bernardo Ávila Pires, Mark Rowland, Diana Borsa, Zhaohan Daniel Guo, Khimya Khetarpal, André Barreto, David Abel, Rémi Munos, Will Dabney,
Abstract要約: 本稿では,回帰分布の統計関数を最適化するための分散動的プログラミング(DP)手法を提案する。従来のDPでは,リスクに敏感なRLの文脈で導入されていた手法である,分散DPとストック増強を併用する。本稿では, 分散DP を用いて, 在庫増分分布最適化問題の解法について概説する。
参考スコア（独自算出の注目度）: 38.11199286025947
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce distributional dynamic programming (DP) methods for optimizing statistical functionals of the return distribution, with standard reinforcement learning as a special case. Previous distributional DP methods could optimize the same class of expected utilities as classic DP. To go beyond expected utilities, we combine distributional DP with stock augmentation, a technique previously introduced for classic DP in the context of risk-sensitive RL, where the MDP state is augmented with a statistic of the rewards obtained so far (since the first time step). We find that a number of recently studied problems can be formulated as stock-augmented return distribution optimization, and we show that we can use distributional DP to solve them. We analyze distributional value and policy iteration, with bounds and a study of what objectives these distributional DP methods can or cannot optimize. We describe a number of applications outlining how to use distributional DP to solve different stock-augmented return distribution optimization problems, for example maximizing conditional value-at-risk, and homeostatic regulation. To highlight the practical potential of stock-augmented return distribution optimization and distributional DP, we combine the core ideas of distributional value iteration with the deep RL agent DQN, and empirically evaluate it for solving instances of the applications discussed.
Abstract（参考訳）: 本稿では,回帰分布の統計関数を最適化するための分散動的プログラミング(DP)手法について紹介する。従来の分散DP手法は、従来のDPと同じ種類の期待ユーティリティを最適化することができた。提案手法は,これまで得られた報酬の統計値を用いてMDP状態が拡張されるリスク感受性RLの文脈で,従来のDPに導入された手法であるストック増分と組み合わせたものである(第1段階以降)。我々は,近年研究されている多くの問題をストック増分された回帰分布最適化として定式化できることを見いだし,その解法として分布DPを用いることができることを示した。分布値とポリシの反復を境界値で解析し、これらの分散DP手法が最適化できるか、できないかについて検討する。本稿では、分散DPを用いて、例えば条件付き値-リスクの最大化やホメオスタティックな規制など、様々なストック強化された戻り値分布最適化問題の解法について概説する。ストック強化された回帰分布最適化と分散DPの実用可能性を強調するため、分散値反復のコアアイデアと深層RLエージェントDQNを組み合わせ、議論されたアプリケーションのインスタンスを解くためにそれを実証的に評価する。

関連論文リスト

A Differential Perspective on Distributional Reinforcement Learning [7.028778922533688]
エージェントが時間段階当たりの報酬を最適化することを目的として,分布強化学習を平均逆設定に拡張する。特に、Quantileベースのアプローチを用いて、ステップごとの報酬分布の長期学習および/または最適化を成功させるアルゴリズムの最初のセットを開発する。
論文参考訳（メタデータ） (2025-06-03T19:26:25Z)
Generative Diffusion Models for Resource Allocation in Wireless Networks [77.36145730415045]
我々は、専門家を模倣し、最適な分布から新しいサンプルを生成するポリシーを訓練する。生成したサンプルの逐次実行により,ほぼ最適性能を実現する。電力制御のケーススタディにおいて数値的な結果を示す。
論文参考訳（メタデータ） (2025-04-28T21:44:31Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Direct Distributional Optimization for Provable Alignment of Diffusion Models [39.048284342436666]
分布最適化の観点から拡散モデルの新しいアライメント手法を提案する。まず、確率分布に対する一般正規化損失最小化として問題を定式化する。本研究では,Doob の $h$-transform 技術を用いてスコア関数を近似することにより,学習した分布からのサンプリングを可能にする。
論文参考訳（メタデータ） (2025-02-05T07:35:15Z)
Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文参考訳（メタデータ） (2024-02-15T20:20:35Z)
A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文参考訳（メタデータ） (2024-02-13T15:35:24Z)
Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文参考訳（メタデータ） (2023-07-25T09:46:02Z)
Robustness and risk management via distributional dynamic programming [13.173307471333619]
我々は,政策評価のための実用的なDPアルゴリズムとともに,分散演算子の新しいクラスを導入する。我々の手法は、各状態が最悪の部分状態と最良の部分状態に分割される拡張状態空間を通して再構成される。我々は、分散演算子とDPアルゴリズムを導出し、新しい制御課題を解決する。
論文参考訳（メタデータ） (2021-12-28T12:12:57Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)
Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。返品だ Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文参考訳（メタデータ） (2021-03-20T23:42:50Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
Likelihood-Free Inference with Deep Gaussian Processes [70.74203794847344]
サーロゲートモデルは、シミュレータ評価の回数を減らすために、可能性のない推論に成功している。本稿では,より不規則な対象分布を扱えるディープガウス過程(DGP)サロゲートモデルを提案する。本実験は,DGPがマルチモーダル分布を持つ目的関数上でGPよりも優れ,単調な場合と同等の性能を維持できることを示す。
論文参考訳（メタデータ） (2020-06-18T14:24:05Z)
Sample-based Distributional Policy Gradient [14.498314462218394]
連続行動空間制御設定のためのサンプルベース分散ポリシー勾配(SDPG)アルゴリズムを提案する。提案アルゴリズムは,多くのタスクに対して,より優れたサンプル効率と高い報酬を示す。 SDPGとD4PGを複数のOpenAI Gym環境に適用し、我々のアルゴリズムが多くのタスクに対してより優れたサンプル効率と高い報酬を示すことを観察する。
論文参考訳（メタデータ） (2020-01-08T17:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。