論文の概要: Dataset Clustering for Improved Offline Policy Learning
- arxiv url: http://arxiv.org/abs/2402.09550v1
- Date: Wed, 14 Feb 2024 20:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 18:07:05.228983
- Title: Dataset Clustering for Improved Offline Policy Learning
- Title(参考訳): オフラインポリシ学習を改善するためのデータセットクラスタリング
- Authors: Qiang Wang, Yixin Deng, Francisco Roldan Sanchez, Keru Wang, Kevin
McGuinness, Noel O'Connor, and Stephen J. Redmond
- Abstract要約: オフラインポリシー学習は、環境と追加のオンラインインタラクションなしで、事前に収集されたデータセットから意思決定ポリシーを見つけることを目的としている。
本稿では,マルチビヘイビア(multi-behavior)と呼ぶデータセットの特徴について検討し,異なる振る舞いを示す複数のポリシーを用いてデータセットが収集されることを示す。
マルチビヘイビアデータセットを複数のユニビヘイビアサブセットに分割する振舞い対応のディープクラスタリング手法を提案する。
- 参考スコア(独自算出の注目度): 7.873623003095065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline policy learning aims to discover decision-making policies from
previously-collected datasets without additional online interactions with the
environment. As the training dataset is fixed, its quality becomes a crucial
determining factor in the performance of the learned policy. This paper studies
a dataset characteristic that we refer to as multi-behavior, indicating that
the dataset is collected using multiple policies that exhibit distinct
behaviors. In contrast, a uni-behavior dataset would be collected solely using
one policy. We observed that policies learned from a uni-behavior dataset
typically outperform those learned from multi-behavior datasets, despite the
uni-behavior dataset having fewer examples and less diversity. Therefore, we
propose a behavior-aware deep clustering approach that partitions
multi-behavior datasets into several uni-behavior subsets, thereby benefiting
downstream policy learning. Our approach is flexible and effective; it can
adaptively estimate the number of clusters while demonstrating high clustering
accuracy, achieving an average Adjusted Rand Index of 0.987 across various
continuous control task datasets. Finally, we present improved policy learning
examples using dataset clustering and discuss several potential scenarios where
our approach might benefit the offline policy learning community.
- Abstract(参考訳): オフラインポリシー学習は、環境と追加のオンラインインタラクションなしで、事前に収集したデータセットから意思決定ポリシーを見つけることを目的としている。
トレーニングデータセットが固定されると、その品質は学習したポリシーのパフォーマンスの重要な決定要因となります。
本稿では,マルチビヘイビア(multi-behavior)と呼ぶデータセットの特徴について検討し,異なる振る舞いを示す複数のポリシーを用いてデータセットが収集されることを示す。
対照的に、ユニビヘイビアデータセットは1つのポリシーだけで収集される。
ユニビヘイビアデータセットから学んだポリシーは、例が少なく、多様性の低いユニビヘイビアデータセットにもかかわらず、一般的にマルチビヘイビアデータセットから学んだポリシーよりも優れています。
そこで本研究では,マルチビヘイビアデータセットを複数のユニビヘイビアサブセットに分割し,下流政策学習の恩恵を受ける行動認識型ディープクラスタリング手法を提案する。
我々の手法は柔軟で効果的であり、クラスタ数を適応的に推定し、高いクラスタリング精度を示し、様々な連続制御タスクデータセットに対して平均0.987の調整ランダムインデックスを達成できる。
最後に、データセットクラスタリングを用いたポリシー学習例を示し、オフラインポリシー学習コミュニティに利益をもたらす可能性のあるいくつかのシナリオについて論じる。
関連論文リスト
- Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning [4.819336169151637]
オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。
高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
論文 参考訳(メタデータ) (2021-11-08T18:48:43Z) - Efficient Self-Supervised Data Collection for Offline Robot Learning [17.461103383630853]
ロボット強化学習の実用的なアプローチは、まずリアルまたはシミュレートされたロボット相互作用データの大規模なバッチを収集することです。
我々は,新しい観測結果にデータ収集を積極的に焦点をあてる,簡便な目標条件強化学習法を開発した。
論文 参考訳(メタデータ) (2021-05-10T18:42:58Z) - Policy Learning with Adaptively Collected Data [22.839095992238537]
適応的に収集されたデータで最適な政策を学ぶという課題に対処します。
一般化された逆確率重み付き推定器に基づくアルゴリズムを提案する。
合成データと公開ベンチマークデータセットの両方を用いてアルゴリズムの有効性を実証する。
論文 参考訳(メタデータ) (2021-05-05T22:03:10Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。