Fugu-MT 論文翻訳(概要): Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning

論文の概要: Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.13279v2
Date: Tue, 18 Mar 2025 07:27:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:09.954727
Title: Analyzing and Bridging the Gap between Maximizing Total Reward and Discounted Reward in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習におけるトータル・リワードとディスカウント・リワードのギャップの解析とブリッジ
Authors: Shuyu Yin, Fei Wen, Peilin Liu, Tao Luo,
Abstract要約: 最適目的は強化学習(RL)の基本的側面である総リターンは理想的であるが、割引リターンはその安定性のために現実的な目的である。目的を整合させる2つの方法を提案する。
参考スコア（独自算出の注目度）: 17.245293915129942
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The optimal objective is a fundamental aspect of reinforcement learning (RL), as it determines how policies are evaluated and optimized. While total return maximization is the ideal objective in RL, discounted return maximization is the practical objective due to its stability. This can lead to a misalignment of objectives. To better understand the problem, we theoretically analyze the performance gap between the policy maximizes the total return and the policy maximizes the discounted return. Our analysis reveals that increasing the discount factor can be ineffective at eliminating this gap when environment contains cyclic states,a frequent scenario. To address this issue, we propose two alternative approaches to align the objectives. The first approach achieves alignment by modifying the terminal state value, treating it as a tunable hyper-parameter with its suitable range defined through theoretical analysis. The second approach focuses on calibrating the reward data in trajectories, enabling alignment in practical Deep RL applications using off-policy algorithms. This method enhances robustness to the discount factor and improve performance when the trajectory length is large. Our proposed methods demonstrate that adjusting reward data can achieve alignment, providing an insight that can be leveraged to design new optimization objectives to fundamentally enhance the performance of RL algorithms.
Abstract（参考訳）: 最適目的は、政策の評価と最適化を決定するため、強化学習(RL)の基本的側面である。トータルリターン最大化はRLの理想的な目的であるが、割引リターン最大化はその安定性のために現実的な目的である。これは目的の誤った調整につながる可能性がある。この問題をよりよく理解するために,政策間の性能ギャップを理論的に解析することで,総リターンを最大化し,政策は割引リターンを最大化する。本分析の結果, 環境が循環状態を含む場合, ディスカウント係数の増大は, このギャップをなくすのに有効ではないことが明らかとなった。この問題に対処するため,目的を整合させる2つの代替手法を提案する。第1のアプローチは、端末状態値を変更して、理論解析によって定義された適切な範囲で調整可能なハイパーパラメータとして扱うことでアライメントを実現する。第2のアプローチは、トラジェクトリにおける報酬データの校正に重点を置いており、オフポリシーアルゴリズムを用いて、実用的なDeep RLアプリケーションのアライメントを可能にする。この方法は、ディスカウント係数に対するロバスト性を高め、軌道長が大きい場合に性能を向上させる。提案手法は、報酬データを調整することでアライメントを達成できることを示し、RLアルゴリズムの性能を根本的に向上するために、新たな最適化目標の設計に活用できる洞察を提供する。

関連論文リスト

Adversarial Constrained Policy Optimization: Improving Constrained Reinforcement Learning by Adapting Budgets [6.5472155063246085]
制約付き強化学習は、報酬と制約の両方が考慮される安全クリティカルな分野において、有望な進歩を遂げてきた。本稿では,報酬の同時最適化とトレーニング中のコスト予算の適応を可能にする適応的制約付き政策最適化(ACPO)を提案する。
論文参考訳（メタデータ） (2024-10-28T07:04:32Z)
Reinforcement Learning with LTL and $ω$-Regular Objectives via Optimality-Preserving Translation to Average Rewards [43.816375964005026]
線形時間論理(LTL)およびより一般的には、$omega$-regular objectivesは、強化学習における従来の割引和と平均報酬目的の代替である。我々は,$omega$-regularの目的に対する各RL問題を,最適性保存方式で,平均値の上限値問題に還元できることを示した。
論文参考訳（メタデータ） (2024-10-16T02:42:37Z)
Meta-Reinforcement Learning with Universal Policy Adaptation: Provable Near-Optimality under All-task Optimum Comparator [9.900800253949512]
本稿では,メタRL(BO-MRL)の2段階最適化フレームワークを開発し,タスク固有のポリシー適応のためのメタプライヤを学習する。提案手法の精度を実証的に検証し,提案アルゴリズムがベンチマークよりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-13T05:17:58Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文参考訳（メタデータ） (2023-09-27T16:42:10Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文参考訳（メタデータ） (2023-05-24T07:11:26Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
RL-PGO: Reinforcement Learning-based Planar Pose-Graph Optimization [1.4884785898657995]
本稿では,最新のDeep Reinforcement Learning (DRL) ベースの環境と2次元ポーズグラフ最適化のためのエージェントを提案する。本研究では、ポーズグラフ最適化問題を部分的に観測可能な決定プロセスとしてモデル化し、実世界および合成データセットの性能を評価することを実証する。
論文参考訳（メタデータ） (2022-02-26T20:10:14Z)
Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。次に,政策最適化におけるコミット率の概念を紹介する。第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文参考訳（メタデータ） (2021-10-29T06:35:44Z)
State Augmented Constrained Reinforcement Learning: Overcoming the Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文参考訳（メタデータ） (2021-02-23T21:07:35Z)
Regularized Policies are Reward Robust [33.05828095421357]
強化学習(RL)における政策の正規化の効果について検討する。その結果,正規化目標が求める最適方針は,最悪の対向報酬の下で強化学習問題の最適方針であることがわかった。以上の結果から,政策の正則化の効果を考察し,堅牢な報酬を通じて探索の理解を深めることができた。
論文参考訳（メタデータ） (2021-01-18T11:38:47Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文参考訳（メタデータ） (2020-11-11T16:05:14Z)
Batch Policy Learning in Average Reward Markov Decision Processes [3.9023554886892438]
モバイル健康アプリケーションに動機づけられた我々は、長期的な平均報酬を最大化する政策を学ぶことに集中する。パラメータ化されたポリシークラスで最適ポリシーを計算する最適化アルゴリズムを開発した。推定ポリシのパフォーマンスは、ポリシークラスにおける最適平均報酬と推定ポリシの平均報酬との差によって測定される。
論文参考訳（メタデータ） (2020-07-23T03:28:14Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。