論文の概要: Enhancing Offline Reinforcement Learning with Curriculum Learning-Based Trajectory Valuation
- arxiv url: http://arxiv.org/abs/2502.00601v1
- Date: Sun, 02 Feb 2025 00:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:13.157609
- Title: Enhancing Offline Reinforcement Learning with Curriculum Learning-Based Trajectory Valuation
- Title(参考訳): カリキュラム学習に基づく軌道評価によるオフライン強化学習の強化
- Authors: Amir Abolfazli, Zekun Song, Avishek Anand, Wolfgang Nejdl,
- Abstract要約: 深層強化学習(DRL)は、訓練データの可用性と品質に依存しており、しばしば特定の環境との広範な相互作用を必要とする。
データ収集が高価でリスクの高い現実のシナリオでは、オフライン強化学習(RL)は、ドメインの専門家が収集したデータを活用し、バッチ制約のある最適ポリシーを探索することで、ソリューションを提供する。
既存のオフラインRLメソッドは、外部ソースからの非マッチングデータによって引き起こされる課題に悩まされることが多い。
- 参考スコア(独自算出の注目度): 6.4653739435880455
- License:
- Abstract: The success of deep reinforcement learning (DRL) relies on the availability and quality of training data, often requiring extensive interactions with specific environments. In many real-world scenarios, where data collection is costly and risky, offline reinforcement learning (RL) offers a solution by utilizing data collected by domain experts and searching for a batch-constrained optimal policy. This approach is further augmented by incorporating external data sources, expanding the range and diversity of data collection possibilities. However, existing offline RL methods often struggle with challenges posed by non-matching data from these external sources. In this work, we specifically address the problem of source-target domain mismatch in scenarios involving mixed datasets, characterized by a predominance of source data generated from random or suboptimal policies and a limited amount of target data generated from higher-quality policies. To tackle this problem, we introduce Transition Scoring (TS), a novel method that assigns scores to transitions based on their similarity to the target domain, and propose Curriculum Learning-Based Trajectory Valuation (CLTV), which effectively leverages these transition scores to identify and prioritize high-quality trajectories through a curriculum learning approach. Our extensive experiments across various offline RL methods and MuJoCo environments, complemented by rigorous theoretical analysis, demonstrate that CLTV enhances the overall performance and transferability of policies learned by offline RL algorithms.
- Abstract(参考訳): 深層強化学習(DRL)の成功は、訓練データの可用性と品質に依存し、しばしば特定の環境との広範な相互作用を必要とする。
データ収集が高価でリスクの高い現実のシナリオでは、オフライン強化学習(RL)は、ドメインの専門家が収集したデータを活用し、バッチ制約のある最適ポリシーを探索することで、ソリューションを提供する。
このアプローチは、外部データソースを取り入れ、データ収集の可能性の範囲と多様性を広げることでさらに強化される。
しかしながら、既存のオフラインRLメソッドは、これらの外部ソースからの非マッチングデータによって引き起こされる課題に悩まされることが多い。
本研究では、乱数または準最適ポリシーから生成されるソースデータの優位性と、高品質なポリシーから生成されるターゲットデータの限られた量によって特徴付けられる混合データセットを含むシナリオにおいて、ソース・ターゲット領域のミスマッチの問題に対処する。
この問題に対処するために,対象ドメインとの類似性に基づいてスコアを遷移に割り当てる新しい手法であるTransition Scoring(TS)を導入し,これらの遷移スコアを効果的に活用して,カリキュラム学習アプローチによる高品質な軌道の特定と優先順位付けを行うCLTV(Curriculum Learning-Based Trajectory Valuation)を提案する。
各種オフラインRL法および MuJoCo 環境を厳密な理論的解析により解析し,CLTV がオフラインRL アルゴリズムで学習したポリシーの全体的な性能と伝達性を向上させることを実証した。
関連論文リスト
- Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning [4.0847743592744905]
強化学習(Reinforcement Learning, RL)は、自律運転やロボット操作といった意思決定分野で大きな成功を収めている。
RLのトレーニングアプローチは、"オン・ポリティクス(on-policy)"サンプリングを中心にしているが、データを完全には活用していない。
オフラインRLは魅力的な代替手段として現れており、特に追加実験を行うことは実用的ではない。
論文 参考訳(メタデータ) (2024-07-17T20:57:05Z) - Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Data Valuation for Offline Reinforcement Learning [1.3535770763481902]
オフライン強化学習の分野は、データの収集をドメインの専門家や注意深く監視されたプログラムにアウトソーシングすることで問題に対処する。
データマーケットの出現に伴い、社内でデータセットを構築する代替手段として、外部データを購入することが挙げられる。
これにより、外部から取得したデータに基づいてトレーニングされたオフライン強化学習エージェントの転送可能性と堅牢性に関する疑問が提起される。
論文 参考訳(メタデータ) (2022-05-19T13:21:40Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。