論文の概要: Truncating Trajectories in Monte Carlo Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.04361v1
- Date: Sun, 7 May 2023 19:41:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 16:12:37.857316
- Title: Truncating Trajectories in Monte Carlo Reinforcement Learning
- Title(参考訳): モンテカルロ強化学習におけるトランシング軌道
- Authors: Riccardo Poiani, Alberto Maria Metelli, Marcello Restelli
- Abstract要約: 強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
- 参考スコア(独自算出の注目度): 48.97155920826079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Reinforcement Learning (RL), an agent acts in an unknown environment to
maximize the expected cumulative discounted sum of an external reward signal,
i.e., the expected return. In practice, in many tasks of interest, such as
policy optimization, the agent usually spends its interaction budget by
collecting episodes of fixed length within a simulator (i.e., Monte Carlo
simulation). However, given the discounted nature of the RL objective, this
data collection strategy might not be the best option. Indeed, the rewards
taken in early simulation steps weigh exponentially more than future rewards.
Taking a cue from this intuition, in this paper, we design an a-priori budget
allocation strategy that leads to the collection of trajectories of different
lengths, i.e., truncated. The proposed approach provably minimizes the width of
the confidence intervals around the empirical estimates of the expected return
of a policy. After discussing the theoretical properties of our method, we make
use of our trajectory truncation mechanism to extend Policy Optimization via
Importance Sampling (POIS, Metelli et al., 2018) algorithm. Finally, we conduct
a numerical comparison between our algorithm and POIS: the results are
consistent with our theory and show that an appropriate truncation of the
trajectories can succeed in improving performance.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)では、エージェントが未知の環境で動作し、期待される外部報酬信号の累積割引和、すなわち期待されるリターンを最大化する。
実際には、政策最適化のような多くのタスクにおいて、エージェントは通常、シミュレータ内で一定の長さのエピソード(モンテカルロシミュレーション)を収集することで相互作用予算を使う。
しかし、RL目標の割引の性質を考えると、このデータ収集戦略は最良の選択肢ではないかもしれない。
実際、初期のシミュレーションで得られる報酬は、将来の報酬よりも指数関数的に重い。
この直観からヒントを得た本論文では,a-prioriの予算配分戦略をデザインし,異なる長さの軌道,すなわち断続的な軌道の集合を導く。
提案手法は、予測された政策の回帰に関する経験的推定値の周りの信頼区間の幅を最小化する。
本手法の理論的特性について考察した後,本手法は,重要サンプリング(pois,metelli et al., 2018)アルゴリズムによるポリシー最適化を拡張するために,軌道切断機構を利用する。
最後に,我々のアルゴリズムとpoisを数値的に比較する:結果は我々の理論と一致し,軌道の適切な切り出しが性能向上に成功することを示す。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - How does Your RL Agent Explore? An Optimal Transport Analysis of Occupancy Measure Trajectories [8.429001045596687]
我々は、RLアルゴリズムの学習過程を、トレーニング中に生成されたポリシーのシーケンスとして表現する。
次に、状態-作用占有度尺度の多様体に誘導される政策軌跡について検討する。
論文 参考訳(メタデータ) (2024-02-14T11:55:50Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - Soft policy optimization using dual-track advantage estimator [5.4020749513539235]
本稿では, エントロピーを導入し, 温度係数を動的に設定し, 探索と利用の機会のバランスをとる。
本稿では、値関数の収束を加速し、さらにアルゴリズムの性能を高めるために、二トラック利便推定器(DTAE)を提案する。
ムジョコ環境における他のオンラインRLアルゴリズムと比較して,提案手法は累積回帰において最も高度な結果が得られる。
論文 参考訳(メタデータ) (2020-09-15T04:09:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。