論文の概要: An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.13368v1
- Date: Thu, 17 Apr 2025 22:21:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:00:47.797445
- Title: An Optimal Discriminator Weighted Imitation Perspective for Reinforcement Learning
- Title(参考訳): 強化学習のための最適識別器重み付き模倣視点
- Authors: Haoran Xu, Shuozhe Li, Harshit Sikchi, Scott Niekum, Amy Zhang,
- Abstract要約: Iterative Dual Reinforcement Learning (IDRL) は、RLを解くための最適な識別器重み付き模倣ビューをとる新しい手法である。
各種オフラインデータセットにおけるIDRLの有効性を検証する。
- 参考スコア(独自算出の注目度): 29.23632058722541
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Iterative Dual Reinforcement Learning (IDRL), a new method that takes an optimal discriminator-weighted imitation view of solving RL. Our method is motivated by a simple experiment in which we find training a discriminator using the offline dataset plus an additional expert dataset and then performing discriminator-weighted behavior cloning gives strong results on various types of datasets. That optimal discriminator weight is quite similar to the learned visitation distribution ratio in Dual-RL, however, we find that current Dual-RL methods do not correctly estimate that ratio. In IDRL, we propose a correction method to iteratively approach the optimal visitation distribution ratio in the offline dataset given no addtional expert dataset. During each iteration, IDRL removes zero-weight suboptimal transitions using the learned ratio from the previous iteration and runs Dual-RL on the remaining subdataset. This can be seen as replacing the behavior visitation distribution with the optimized visitation distribution from the previous iteration, which theoretically gives a curriculum of improved visitation distribution ratios that are closer to the optimal discriminator weight. We verify the effectiveness of IDRL on various kinds of offline datasets, including D4RL datasets and more realistic corrupted demonstrations. IDRL beats strong Primal-RL and Dual-RL baselines in terms of both performance and stability, on all datasets.
- Abstract(参考訳): 本稿では,RLを解くための最適な識別器重み付き模倣ビューを取り入れた新しい手法であるIterative Dual Reinforcement Learning (IDRL)を紹介する。
本手法は,オフラインデータセットと追加のエキスパートデータセットを用いて識別器を訓練し,識別器重み付けされた行動クローニングを行うことで,様々な種類のデータセットに対して強力な結果が得られるという単純な実験によって動機づけられた。
この最適判別器の重量は、Dual-RLの学習した訪問分布比と非常によく似ているが、現在のDual-RL法は、その比率を正確に見積もっていない。
In IDRL, we propose a correct method to repeaterative approach the optimal visitation distribution ratio in the offline dataset given no addtional expert dataset。
各イテレーションにおいて、IDRLは前回のイテレーションから学んだ比率を使ってゼロウェイトなサブ最適遷移を取り除き、残りのサブデータセット上でDual-RLを実行する。
これは、行動訪問分布を前回の繰り返しから最適化された訪問分布に置き換えたものと見なすことができ、理論的には最適な識別器重量に近い訪問分布比の改善のカリキュラムを提供する。
D4RLデータセットやより現実的な劣化した実演など,さまざまなオフラインデータセットに対するIDRLの有効性を検証する。
IDRLは、すべてのデータセットで、パフォーマンスと安定性の両面で、Primal-RLとDual-RLのベースラインを抜いている。
関連論文リスト
- Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Learning Better with Less: Effective Augmentation for Sample-Efficient
Visual Reinforcement Learning [57.83232242068982]
データ拡張(DA)は、ビジュアル強化学習(RL)アルゴリズムのサンプル効率を高める重要な手法である。
サンプル効率のよい視覚的RLを実現する上で, DAのどの属性が有効かは明らかになっていない。
本研究は,DAの属性が有効性に与える影響を評価するための総合的な実験を行う。
論文 参考訳(メタデータ) (2023-05-25T15:46:20Z) - MDDL: A Framework for Reinforcement Learning-based Position Allocation
in Multi-Channel Feed [14.8342816935259]
本稿では,MDDL(Multi-Distribution Data Learning)というフレームワークを提案する。
MDDLには新たな模倣学習信号が組み込まれており、戦略データの過大評価問題を軽減し、ランダムデータに対するRL信号を最大化し、効果的な学習を容易にする。
MDDLはMeituanのフードデリバリープラットフォームに完全にデプロイされており、現在3億人のユーザーにサービスを提供している。
論文 参考訳(メタデータ) (2023-04-17T07:25:58Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Dual Generator Offline Reinforcement Learning [90.05278061564198]
オフラインのRLでは、学習したポリシーをデータに近づき続けることが不可欠である。
実際には、GANベースのオフラインRL法は代替手法と同様に実行されていない。
2つのジェネレータを持つことにより、有効なGANベースのオフラインRL法が実現されるだけでなく、サポート制約を近似することも示している。
論文 参考訳(メタデータ) (2022-11-02T20:25:18Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? [10.149055921090572]
ニューラルネットワークZ-Iteration(Neural FZI)フレームワークにおける分布RLの最適化の利点について検討する。
その結果, 分布RLは良好な滑らかさ特性を有し, 安定な勾配を享受できることが示唆された。
本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
論文 参考訳(メタデータ) (2022-09-29T02:18:31Z) - Interpretable performance analysis towards offline reinforcement
learning: A dataset perspective [6.526790418943535]
既存のオフラインRLアルゴリズムの2倍の分類法を提案する。
異なる種類のアルゴリズムのパフォーマンスと状態下でのアクションの分布との相関性を検討する。
我々はAtariドメイン上のベンチマークプラットフォームであるEasy Go(RLEG)を作成し、そのコストは0.3億ドル以上と見積もっている。
論文 参考訳(メタデータ) (2021-05-12T07:17:06Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。