論文の概要: Beyond expected value: geometric mean optimization for long-term policy performance in reinforcement learning
- arxiv url: http://arxiv.org/abs/2508.21443v1
- Date: Fri, 29 Aug 2025 09:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.985374
- Title: Beyond expected value: geometric mean optimization for long-term policy performance in reinforcement learning
- Title(参考訳): 予測値を超えて:強化学習における長期政策性能の幾何学的平均最適化
- Authors: Xinyi Sheng, Dominik Baumann,
- Abstract要約: 本稿では,標準アンサンブル平均と時間平均成長率を組み合わせた新しい強化学習アルゴリズムを提案する。
このアルゴリズムは従来のRL法よりも優れている。
- 参考スコア(独自算出の注目度): 2.5134449616241277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) algorithms typically optimize the expected cumulative reward, i.e., the expected value of the sum of scalar rewards an agent receives over the course of a trajectory. The expected value averages the performance over an infinite number of trajectories. However, when deploying the agent in the real world, this ensemble average may be uninformative for the performance of individual trajectories. Thus, in many applications, optimizing the long-term performance of individual trajectories might be more desirable. In this work, we propose a novel RL algorithm that combines the standard ensemble average with the time-average growth rate, a measure for the long-term performance of individual trajectories. We first define the Bellman operator for the time-average growth rate. We then show that, under multiplicative reward dynamics, the geometric mean aligns with the time-average growth rate. To address more general and unknown reward dynamics, we propose a modified geometric mean with $N$-sliding window that captures the path-dependency as an estimator for the time-average growth rate. This estimator is embedded as a regularizer into the objective, forming a practical algorithm and enabling the policy to benefit from ensemble average and time-average simultaneously. We evaluate our algorithm in challenging simulations, where it outperforms conventional RL methods.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)アルゴリズムは通常、期待累積報酬を最適化する。
期待値は、無限個の軌道上での性能を平均化する。
しかし, エージェントを現実世界に展開する場合, このアンサンブル平均は個々の軌道の性能に悪影響を及ぼす可能性がある。
したがって、多くの応用において、個々の軌道の長期的性能を最適化することが望ましい。
本研究では,標準アンサンブル平均と時間平均成長率を組み合わせたRLアルゴリズムを提案する。
まず、時間平均成長率に対してベルマン作用素を定義する。
次に、乗法的報酬力学の下では、幾何平均は時間平均成長速度と一致していることを示す。
より汎用的で未知な報酬力学に対処するため,時間平均成長率を推定する手段として,パス依存性を推定する$N$-slidingウインドウを用いた幾何平均法を提案する。
この推定器は、目標に正規化器として組み込まれ、実用的なアルゴリズムを形成し、平均と平均のアンサンブルの利点を同時に得る。
このアルゴリズムは従来のRL法よりも優れている。
関連論文リスト
- Geometric-Mean Policy Optimization [122.95205388291987]
グループ相対政策最適化(GRPO)の安定化版を提案する。
算術平均を最適化する代わりに、GMPOはトークンレベルの報酬の幾何学平均を最大化する。
GMPO-7Bは安定性の向上に加えて、複数の数学ベンチマークでは平均4.1%、マルチモーダル推論ベンチマークでは1.4%でGRPOを上回っている。
論文 参考訳(メタデータ) (2025-07-28T09:54:05Z) - TreeRPO: Tree Relative Policy Optimization [55.97385410074841]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - A Differential Perspective on Distributional Reinforcement Learning [7.028778922533688]
エージェントが時間段階当たりの報酬を最適化することを目的として,分布強化学習を平均逆設定に拡張する。
特に、Quantileベースのアプローチを用いて、ステップごとの報酬分布の長期学習および/または最適化を成功させるアルゴリズムの最初のセットを開発する。
論文 参考訳(メタデータ) (2025-06-03T19:26:25Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Reinforcement learning with non-ergodic reward increments: robustness via ergodicity transformations [8.44491527275706]
強化学習の応用分野は、自律運転、精密農業、金融などである。
特に、RL の焦点は典型的には戻り値の期待値である。
我々は,RLエージェントが個々の軌道の長期的性能を最適化するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-17T15:13:33Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。