論文の概要: Behavioral Entropy-Guided Dataset Generation for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.04141v1
- Date: Thu, 06 Feb 2025 15:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:52.825547
- Title: Behavioral Entropy-Guided Dataset Generation for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための行動エントロピー誘導型データセット生成
- Authors: Wesley A. Suttle, Aamodh Suresh, Carlos Nieto-Granda,
- Abstract要約: 本研究では,多様な状態空間を包含するデータセットを生成するために,行動エントロピーを基本的探索目的として用いることを提案する。
本研究では,BE,R'enyi,Shannon Entropy-maximizing PolicyおよびSMMおよびRNDアルゴリズムを用いて生成されたデータセットに対して,様々なダウンストリームタスクに対するオフラインRLアルゴリズムの性能を実験的に比較した。
BEを使用してトレーニングされたデータセットに基づいてトレーニングされたオフラインRLアルゴリズムは、検討されたすべてのタスクにおいて、シャノンエントロピー、SMM、RNDを使用して収集されたデータセット、およびR'enyiエントロピーを用いて収集されたデータセットと比較して80%のタスクにおいて、トレーニングされたデータセットよりも優れています。
- 参考スコア(独自算出の注目度): 0.823630213763116
- License:
- Abstract: Entropy-based objectives are widely used to perform state space exploration in reinforcement learning (RL) and dataset generation for offline RL. Behavioral entropy (BE), a rigorous generalization of classical entropies that incorporates cognitive and perceptual biases of agents, was recently proposed for discrete settings and shown to be a promising metric for robotic exploration problems. In this work, we propose using BE as a principled exploration objective for systematically generating datasets that provide diverse state space coverage in complex, continuous, potentially high-dimensional domains. To achieve this, we extend the notion of BE to continuous settings, derive tractable $k$-nearest neighbor estimators, provide theoretical guarantees for these estimators, and develop practical reward functions that can be used with standard RL methods to learn BE-maximizing policies. Using standard MuJoCo environments, we experimentally compare the performance of offline RL algorithms for a variety of downstream tasks on datasets generated using BE, R\'{e}nyi, and Shannon entropy-maximizing policies, as well as the SMM and RND algorithms. We find that offline RL algorithms trained on datasets collected using BE outperform those trained on datasets collected using Shannon entropy, SMM, and RND on all tasks considered, and on 80% of the tasks compared to datasets collected using R\'{e}nyi entropy.
- Abstract(参考訳): エントロピーに基づく目的は、強化学習(RL)とオフラインRLのためのデータセット生成における状態空間探索に広く用いられている。
エージェントの認知的バイアスと知覚的バイアスを含む古典的エントロピーの厳密な一般化である行動エントロピー(BE)は、最近、離散的な設定のために提案され、ロボット探査問題において有望な指標であることが示されている。
本研究では,複雑な,連続的な,潜在的に高次元領域における多様な状態空間のカバレッジを提供するデータセットを体系的に生成するための,原理的探索目的としてBEを用いることを提案する。
これを実現するために、BEの概念を連続的な設定に拡張し、抽出可能な$k$-nearest近傍推定器を導出し、これらの推定器の理論的保証を提供し、BE-maximizing Policyを学習するために標準RL法で使用可能な実用的な報酬関数を開発する。
標準的なMuJoCo環境を用いて,BE,R\'{e}nyi,Shannon Entropy-maximizing Policy,SMM,RNDアルゴリズムを用いて生成されたデータセットに対して,さまざまなダウンストリームタスクに対するオフラインRLアルゴリズムの性能を実験的に比較した。
BEを用いて学習したデータセットに基づいてトレーニングされたオフラインRLアルゴリズムは、検討対象のすべてのタスクにおいてシャノンエントロピー、SMM、RNDを用いて収集したデータセットよりも優れており、R\'{e}nyiエントロピーを用いて収集したデータセットと比較して80%のタスクで処理されていることがわかった。
関連論文リスト
- Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization [1.631115063641726]
オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。
RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
論文 参考訳(メタデータ) (2024-09-02T19:10:32Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Learning Goal-Conditioned Policies from Sub-Optimal Offline Data via Metric Learning [22.174803826742963]
目標条件付きオフライン強化学習における最適データセットからの最適行動学習の問題に対処する。
本稿では,目標条件付きオフラインRL問題に対する最適値関数を近似するための計量学習法を提案する。
本手法は,分布外推定誤差に悩まされることなく,高度に最適化されたオフラインデータセットから最適な挙動を推定する。
論文 参考訳(メタデータ) (2024-02-16T16:46:53Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。