論文の概要: Dataset Clustering for Improved Offline Policy Learning
- arxiv url: http://arxiv.org/abs/2402.09550v1
- Date: Wed, 14 Feb 2024 20:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:07:05.228983
- Title: Dataset Clustering for Improved Offline Policy Learning
- Title(参考訳): オフラインポリシ学習を改善するためのデータセットクラスタリング
- Authors: Qiang Wang, Yixin Deng, Francisco Roldan Sanchez, Keru Wang, Kevin
McGuinness, Noel O'Connor, and Stephen J. Redmond
- Abstract要約: オフラインポリシー学習は、環境と追加のオンラインインタラクションなしで、事前に収集されたデータセットから意思決定ポリシーを見つけることを目的としている。
本稿では,マルチビヘイビア(multi-behavior)と呼ぶデータセットの特徴について検討し,異なる振る舞いを示す複数のポリシーを用いてデータセットが収集されることを示す。
マルチビヘイビアデータセットを複数のユニビヘイビアサブセットに分割する振舞い対応のディープクラスタリング手法を提案する。
- 参考スコア(独自算出の注目度): 7.873623003095065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline policy learning aims to discover decision-making policies from
previously-collected datasets without additional online interactions with the
environment. As the training dataset is fixed, its quality becomes a crucial
determining factor in the performance of the learned policy. This paper studies
a dataset characteristic that we refer to as multi-behavior, indicating that
the dataset is collected using multiple policies that exhibit distinct
behaviors. In contrast, a uni-behavior dataset would be collected solely using
one policy. We observed that policies learned from a uni-behavior dataset
typically outperform those learned from multi-behavior datasets, despite the
uni-behavior dataset having fewer examples and less diversity. Therefore, we
propose a behavior-aware deep clustering approach that partitions
multi-behavior datasets into several uni-behavior subsets, thereby benefiting
downstream policy learning. Our approach is flexible and effective; it can
adaptively estimate the number of clusters while demonstrating high clustering
accuracy, achieving an average Adjusted Rand Index of 0.987 across various
continuous control task datasets. Finally, we present improved policy learning
examples using dataset clustering and discuss several potential scenarios where
our approach might benefit the offline policy learning community.
- Abstract(参考訳): オフラインポリシー学習は、環境と追加のオンラインインタラクションなしで、事前に収集したデータセットから意思決定ポリシーを見つけることを目的としている。
トレーニングデータセットが固定されると、その品質は学習したポリシーのパフォーマンスの重要な決定要因となります。
本稿では,マルチビヘイビア(multi-behavior)と呼ぶデータセットの特徴について検討し,異なる振る舞いを示す複数のポリシーを用いてデータセットが収集されることを示す。
対照的に、ユニビヘイビアデータセットは1つのポリシーだけで収集される。
ユニビヘイビアデータセットから学んだポリシーは、例が少なく、多様性の低いユニビヘイビアデータセットにもかかわらず、一般的にマルチビヘイビアデータセットから学んだポリシーよりも優れています。
そこで本研究では,マルチビヘイビアデータセットを複数のユニビヘイビアサブセットに分割し,下流政策学習の恩恵を受ける行動認識型ディープクラスタリング手法を提案する。
我々の手法は柔軟で効果的であり、クラスタ数を適応的に推定し、高いクラスタリング精度を示し、様々な連続制御タスクデータセットに対して平均0.987の調整ランダムインデックスを達成できる。
最後に、データセットクラスタリングを用いたポリシー学習例を示し、オフラインポリシー学習コミュニティに利益をもたらす可能性のあるいくつかのシナリオについて論じる。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Pessimistic Value Iteration for Multi-Task Data Sharing in Offline Reinforcement Learning [116.87367592920171]
オフライン強化学習(RL)は、固定データセットからタスク固有のポリシーを学ぶ上で有望な結果を示している。
特定のタスクのデータセットが制限されているシナリオでは、他のタスクからのデータセットでオフラインのRLを改善することが自然なアプローチである。
データ選択なしでデータセット全体を共有する不確実性に基づくマルチタスクデータ共有(MTDS)手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T08:16:52Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning [4.819336169151637]
オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。
高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
論文 参考訳(メタデータ) (2021-11-08T18:48:43Z) - Efficient Self-Supervised Data Collection for Offline Robot Learning [17.461103383630853]
ロボット強化学習の実用的なアプローチは、まずリアルまたはシミュレートされたロボット相互作用データの大規模なバッチを収集することです。
我々は,新しい観測結果にデータ収集を積極的に焦点をあてる,簡便な目標条件強化学習法を開発した。
論文 参考訳(メタデータ) (2021-05-10T18:42:58Z) - Policy Learning with Adaptively Collected Data [22.839095992238537]
適応的に収集されたデータで最適な政策を学ぶという課題に対処します。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案する。
合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2021-05-05T22:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。