論文の概要: SIBRE: Self Improvement Based REwards for Adaptive Feedback in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.09846v3
- Date: Mon, 21 Dec 2020 10:08:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 05:45:52.703894
- Title: SIBRE: Self Improvement Based REwards for Adaptive Feedback in
Reinforcement Learning
- Title(参考訳): sibre:強化学習における適応フィードバックに対する自己改善に基づく報酬
- Authors: Somjit Nath, Richa Verma, Abhik Ray, Harshad Khadilkar
- Abstract要約: 強化学習(RL)における収束率向上のための汎用的な報酬形成手法を提案する。
このアプローチは既存のRLアルゴリズムと併用して使用するために設計されており、エージェントの過去のパフォーマンスよりも報奨的な改善で構成されている。
我々は、SIBREが元のRLアルゴリズムと同じ条件下で期待に収束することを証明した。
- 参考スコア(独自算出の注目度): 5.868852957948178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a generic reward shaping approach for improving the rate of
convergence in reinforcement learning (RL), called Self Improvement Based
REwards, or SIBRE. The approach is designed for use in conjunction with any
existing RL algorithm, and consists of rewarding improvement over the agent's
own past performance. We prove that SIBRE converges in expectation under the
same conditions as the original RL algorithm. The reshaped rewards help
discriminate between policies when the original rewards are weakly
discriminated or sparse. Experiments on several well-known benchmark
environments with different RL algorithms show that SIBRE converges to the
optimal policy faster and more stably. We also perform sensitivity analysis
with respect to hyper-parameters, in comparison with baseline RL algorithms.
- Abstract(参考訳): 自己改善ベース・リワード(Self Improvement Based Rewards, SIBRE)と呼ばれる強化学習(RL)における収束率向上のための汎用的な報酬形成手法を提案する。
このアプローチは既存のRLアルゴリズムと併用して使用するために設計されており、エージェントの過去のパフォーマンスよりも報奨的な改善で構成されている。
従来のrlアルゴリズムと同じ条件下でsibreが期待値に収束することを示す。
リフォームされた報酬は、オリジナルの報酬が弱い分別またはまばらな場合にポリシーを区別するのに役立つ。
様々なRLアルゴリズムを用いたいくつかのよく知られたベンチマーク環境の実験により、SIBREはより高速で安定に最適なポリシーに収束することが示された。
また,ベースラインRLアルゴリズムと比較して,ハイパーパラメータに対する感度解析を行う。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Reinforcement Replaces Supervision: Query focused Summarization using
Deep Reinforcement Learning [43.123290672073814]
クエリに基づいて文書から要約を生成するシステムを扱う。
Reinforcement Learning (RL) が自然言語生成のための Supervised Learning (SL) の一般化を提供するという知見に触発されて,本課題に RL ベースのアプローチを用いる。
我々は、ROUGE、BLEU、Semantic similarityといった様々な報酬信号に基づいて訓練された複数のポリシーグラディエントネットワークを開発する。
論文 参考訳(メタデータ) (2023-11-29T10:38:16Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Deep Black-Box Reinforcement Learning with Movement Primitives [15.184283143878488]
深部強化学習のための新しいアルゴリズムを提案する。
これは、政治的に成功したディープRLアルゴリズムである、微分可能な信頼領域層に基づいている。
複雑なロボット制御タスクにおいて,ERLアルゴリズムと最先端のステップベースアルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-10-18T06:34:52Z) - ARC -- Actor Residual Critic for Adversarial Imitation Learning [3.4806267677524896]
ARC支援によるAILは、シミュレーションされた連続制御および実際のロボット操作タスクにおいて、標準のAILよりも優れていることを示す。
ARCアルゴリズムは実装が簡単で、ACアルゴリズムで既存のAIL実装に組み込むことができる。
論文 参考訳(メタデータ) (2022-06-05T04:49:58Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。