Fugu-MT 論文翻訳(概要): Truncating Trajectories in Monte Carlo Reinforcement Learning

論文の概要: Truncating Trajectories in Monte Carlo Reinforcement Learning

arxiv url: http://arxiv.org/abs/2305.04361v1
Date: Sun, 7 May 2023 19:41:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-09 16:12:37.857316
Title: Truncating Trajectories in Monte Carlo Reinforcement Learning
Title（参考訳）: モンテカルロ強化学習におけるトランシング軌道
Authors: Riccardo Poiani, Alberto Maria Metelli, Marcello Restelli
Abstract要約: 強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。軌道の適切な切り離しが性能向上に成功することを示す。
参考スコア（独自算出の注目度）: 48.97155920826079
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In Reinforcement Learning (RL), an agent acts in an unknown environment to maximize the expected cumulative discounted sum of an external reward signal, i.e., the expected return. In practice, in many tasks of interest, such as policy optimization, the agent usually spends its interaction budget by collecting episodes of fixed length within a simulator (i.e., Monte Carlo simulation). However, given the discounted nature of the RL objective, this data collection strategy might not be the best option. Indeed, the rewards taken in early simulation steps weigh exponentially more than future rewards. Taking a cue from this intuition, in this paper, we design an a-priori budget allocation strategy that leads to the collection of trajectories of different lengths, i.e., truncated. The proposed approach provably minimizes the width of the confidence intervals around the empirical estimates of the expected return of a policy. After discussing the theoretical properties of our method, we make use of our trajectory truncation mechanism to extend Policy Optimization via Importance Sampling (POIS, Metelli et al., 2018) algorithm. Finally, we conduct a numerical comparison between our algorithm and POIS: the results are consistent with our theory and show that an appropriate truncation of the trajectories can succeed in improving performance.
Abstract（参考訳）: 強化学習(Reinforcement Learning, RL)では、エージェントが未知の環境で動作し、期待される外部報酬信号の累積割引和、すなわち期待されるリターンを最大化する。実際には、政策最適化のような多くのタスクにおいて、エージェントは通常、シミュレータ内で一定の長さのエピソード(モンテカルロシミュレーション)を収集することで相互作用予算を使う。しかし、RL目標の割引の性質を考えると、このデータ収集戦略は最良の選択肢ではないかもしれない。実際、初期のシミュレーションで得られる報酬は、将来の報酬よりも指数関数的に重い。この直観からヒントを得た本論文では,a-prioriの予算配分戦略をデザインし,異なる長さの軌道,すなわち断続的な軌道の集合を導く。提案手法は、予測された政策の回帰に関する経験的推定値の周りの信頼区間の幅を最小化する。本手法の理論的特性について考察した後,本手法は,重要サンプリング(pois,metelli et al., 2018)アルゴリズムによるポリシー最適化を拡張するために,軌道切断機構を利用する。最後に,我々のアルゴリズムとpoisを数値的に比較する:結果は我々の理論と一致し,軌道の適切な切り出しが性能向上に成功することを示す。

関連論文リスト

A Differential Perspective on Distributional Reinforcement Learning [7.028778922533688]
エージェントが時間段階当たりの報酬を最適化することを目的として,分布強化学習を平均逆設定に拡張する。特に、Quantileベースのアプローチを用いて、ステップごとの報酬分布の長期学習および/または最適化を成功させるアルゴリズムの最初のセットを開発する。
論文参考訳（メタデータ） (2025-06-03T19:26:25Z)
Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation [28.63391989014238]
連続時間強化学習(CTRL)は、相互作用が時間とともに継続的に進化する環境において、シーケンシャルな意思決定のための原則的なフレームワークを提供する。サンプルと計算効率の両方を実現するモデルベースアルゴリズムを提案する。我々は,$N$の測定値を用いて,$tildeO(sqrtd_mathcalR + d_mathcalFN-1/2)$の準最適解を求めることができることを示す。
論文参考訳（メタデータ） (2025-05-20T18:37:51Z)
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-17T11:47:56Z)
Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文参考訳（メタデータ） (2024-10-02T08:46:34Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
How does Your RL Agent Explore? An Optimal Transport Analysis of Occupancy Measure Trajectories [8.429001045596687]
我々は、RLアルゴリズムの学習過程を、トレーニング中に生成されたポリシーのシーケンスとして表現する。次に、状態-作用占有度尺度の多様体に誘導される政策軌跡について検討する。
論文参考訳（メタデータ） (2024-02-14T11:55:50Z)
Reinforcement learning with non-ergodic reward increments: robustness via ergodicity transformations [8.44491527275706]
強化学習の応用分野は、自律運転、精密農業、金融などである。特に、RL の焦点は典型的には戻り値の期待値である。我々は,RLエージェントが個々の軌道の長期的性能を最適化するアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-10-17T15:13:33Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Human-in-the-loop: Provably Efficient Preference-based Reinforcement Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-05-23T09:03:24Z)
Soft policy optimization using dual-track advantage estimator [5.4020749513539235]
本稿では, エントロピーを導入し, 温度係数を動的に設定し, 探索と利用の機会のバランスをとる。本稿では、値関数の収束を加速し、さらにアルゴリズムの性能を高めるために、二トラック利便推定器(DTAE)を提案する。ムジョコ環境における他のオンラインRLアルゴリズムと比較して,提案手法は累積回帰において最も高度な結果が得られる。
論文参考訳（メタデータ） (2020-09-15T04:09:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。