論文の概要: Understanding and Addressing the Pitfalls of Bisimulation-based
Representations in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2310.17139v1
- Date: Thu, 26 Oct 2023 04:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 22:13:26.522298
- Title: Understanding and Addressing the Pitfalls of Bisimulation-based
Representations in Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習におけるバイシミュレーションに基づく表現の落とし穴の理解と対処
- Authors: Hongyu Zang, Xin Li, Leiji Zhang, Yang Liu, Baigui Sun, Riashat Islam,
Remi Tachet des Combes, Romain Laroche
- Abstract要約: オンライン環境においてバイシミュレーション手法が成功する理由を理解することを目的としているが、オフラインタスクではフェールする。
分析の結果,データセットの欠落はバイシミュレーションの原理に特に有害であることが判明した。
提案手法は、MICoとSimSRの2つの最先端バイシミュレーションに基づくアルゴリズムに実装する。
- 参考スコア(独自算出の注目度): 34.66035026036424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While bisimulation-based approaches hold promise for learning robust state
representations for Reinforcement Learning (RL) tasks, their efficacy in
offline RL tasks has not been up to par. In some instances, their performance
has even significantly underperformed alternative methods. We aim to understand
why bisimulation methods succeed in online settings, but falter in offline
tasks. Our analysis reveals that missing transitions in the dataset are
particularly harmful to the bisimulation principle, leading to ineffective
estimation. We also shed light on the critical role of reward scaling in
bounding the scale of bisimulation measurements and of the value error they
induce. Based on these findings, we propose to apply the expectile operator for
representation learning to our offline RL setting, which helps to prevent
overfitting to incomplete data. Meanwhile, by introducing an appropriate reward
scaling strategy, we avoid the risk of feature collapse in representation
space. We implement these recommendations on two state-of-the-art
bisimulation-based algorithms, MICo and SimSR, and demonstrate performance
gains on two benchmark suites: D4RL and Visual D4RL. Codes are provided at
\url{https://github.com/zanghyu/Offline_Bisimulation}.
- Abstract(参考訳): バイシミュレーションに基づくアプローチでは、強化学習(RL)タスクの堅牢な状態表現の学習が約束されているが、オフラインのRLタスクにおける有効性はそれほど高くない。
一部の例では、その性能は代替メソッドを著しく下回っていた。
シミュレーション手法がオンライン設定で成功する理由を理解することを目的としていますが,オフラインタスクでは変わります。
分析の結果,データセットの欠落はバイシミュレーションの原理に特に有害であり,非効率な推定に繋がることがわかった。
また,バイシミュレーション測定のスケールと,それが誘発する値誤差のバウンドにおいて,報酬スケーリングが果たす重要な役割について考察した。
これらの結果に基づき,オフラインrl設定に表現学習のための期待演算子を適用することを提案し,不完全なデータへの過剰適合を防止する。
一方,適切な報酬スケーリング戦略を導入することで,表現空間における機能崩壊のリスクを回避できる。
そこで我々は,2つのベンチマークスイートであるD4RLとVisual D4RLの性能向上を実証するために,最先端のバイシミュレーションベースアルゴリズムMICoとSimSRにこれらのレコメンデーションを実装した。
コードは \url{https://github.com/zanghyu/offline_bisimulation} で提供される。
関連論文リスト
- Align Your Intents: Offline Imitation Learning via Optimal Transport [3.1728695158666396]
模擬エージェントは,専門家の観察からのみ,望ましい行動を学ぶことができることを示す。
AILOT法では,データに空間距離を交互に組み込んだインテントの形で,状態の特殊表現を行う。
AILOTはD4RLベンチマークで最先端のオフライン模倣学習アルゴリズムより優れていることを報告した。
論文 参考訳(メタデータ) (2024-02-20T14:24:00Z) - Reasoning with Latent Diffusion in Offline Reinforcement Learning [11.349356866928547]
オフラインの強化学習は、静的データセットからハイリワードポリシーを学ぶ手段として、約束を守る。
オフラインRLの主な課題は、静的データセットから最適な軌道の部分を効果的に縫合することにある。
本稿では,潜在拡散の表現性を利用して,非支持軌道列を圧縮された潜在スキルとしてモデル化する手法を提案する。
論文 参考訳(メタデータ) (2023-09-12T20:58:21Z) - Dual Generator Offline Reinforcement Learning [90.05278061564198]
オフラインのRLでは、学習したポリシーをデータに近づき続けることが不可欠である。
実際には、GANベースのオフラインRL法は代替手法と同様に実行されていない。
2つのジェネレータを持つことにより、有効なGANベースのオフラインRL法が実現されるだけでなく、サポート制約を近似することも示している。
論文 参考訳(メタデータ) (2022-11-02T20:25:18Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。