論文の概要: Expert or not? assessing data quality in offline reinforcement learning
- arxiv url: http://arxiv.org/abs/2510.12638v1
- Date: Tue, 14 Oct 2025 15:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.99257
- Title: Expert or not? assessing data quality in offline reinforcement learning
- Title(参考訳): オフライン強化学習におけるデータ品質の評価
- Authors: Arip Asadulaev, Fakhri Karray, Martin Takac,
- Abstract要約: オフライン強化学習は静的データセットからのみ学習する。
実際には、そのようなデータセットは、専門家、準最適、さらにはランダムな軌跡など、様々な点で異なる。
ベルマン・ワッサースタイン距離(英: Bellman Wasserstein distance、BWD)は、データセットの行動ポリシーがランダムな参照ポリシーとどのように異なるかを測定する、最適輸送スコアである。
- 参考スコア(独自算出の注目度): 7.468178832120162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) learns exclusively from static datasets, without further interaction with the environment. In practice, such datasets vary widely in quality, often mixing expert, suboptimal, and even random trajectories. The choice of algorithm therefore depends on dataset fidelity. Behavior cloning can suffice on high-quality data, whereas mixed- or low-quality data typically benefits from offline RL methods that stitch useful behavior across trajectories. Yet in the wild it is difficult to assess dataset quality a priori because the data's provenance and skill composition are unknown. We address the problem of estimating offline dataset quality without training an agent. We study a spectrum of proxies from simple cumulative rewards to learned value based estimators, and introduce the Bellman Wasserstein distance (BWD), a value aware optimal transport score that measures how dissimilar a dataset's behavioral policy is from a random reference policy. BWD is computed from a behavioral critic and a state conditional OT formulation, requiring no environment interaction or full policy optimization. Across D4RL MuJoCo tasks, BWD strongly correlates with an oracle performance score that aggregates multiple offline RL algorithms, enabling efficient prediction of how well standard agents will perform on a given dataset. Beyond prediction, integrating BWD as a regularizer during policy optimization explicitly pushes the learned policy away from random behavior and improves returns. These results indicate that value aware, distributional signals such as BWD are practical tools for triaging offline RL datasets and policy optimization.
- Abstract(参考訳): オフライン強化学習(RL)は、環境とのさらなる相互作用なしに、静的データセットからのみ学習する。
実際には、そのようなデータセットは様々な品質で変化し、しばしば専門家、準最適、さらにはランダムな軌跡を混ぜる。
したがってアルゴリズムの選択はデータセットの忠実度に依存する。
振舞いのクローニングは高品質のデータで十分であるが、混合または低品質のデータは通常、軌跡をまたいだ有用な振舞いを縫うオフラインRL法から恩恵を受ける。
しかし、荒野では、データの出所やスキル構成が不明であるため、データセットの品質を事前評価することは難しい。
エージェントを訓練せずにオフラインデータセットの品質を推定する問題に対処する。
本稿では,単純な累積報酬から学習値に基づく推定器までのプロキシのスペクトルについて検討し,ランダムな参照ポリシからデータセットの行動方針をどう区別するかを測る値認識最適輸送スコアであるベルマン・ワッサースタイン距離(BWD)を導入する。
BWDは行動評論家と状態条件OTの定式化から計算され、環境相互作用や完全なポリシー最適化を必要としない。
D4RL MuJoCoタスク全体で、BWDは、複数のオフラインRLアルゴリズムを集約するオラクルのパフォーマンススコアと強く相関し、与えられたデータセット上で標準エージェントがどれだけうまく動作するかの効率的な予測を可能にする。
予測以外にも、ポリシー最適化中に正規化子としてBWDを統合することで、学習したポリシーをランダムな振る舞いから遠ざけ、リターンを改善することができる。
これらの結果から,BWDなどの分散信号は,オフラインRLデータセットのトリアージやポリシ最適化のための実用的なツールであることが示唆された。
関連論文リスト
- Offline Reinforcement Learning with Wasserstein Regularization via Optimal Transport Maps [47.57615889991631]
オフライン強化学習(RL)は、静的データセットから最適なポリシーを学ぶことを目的としている。
本稿では,分布外データに対して頑健なワッサースタイン距離を利用する手法を提案する。
提案手法は,D4RLベンチマークデータセット上で広く使用されている手法と同等あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2025-07-14T22:28:36Z) - Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced
Datasets [53.8218145723718]
オフラインポリシー学習は、既存のトラジェクトリのデータセットを使用して、追加データを収集せずに意思決定ポリシーを学ぶことを目的としている。
我々は、データセットが最適下軌道に支配されている場合、最先端のオフラインRLアルゴリズムはデータセットにおけるトラジェクトリの戻り平均よりも大幅に改善されないことを論じる。
本稿では,標準オフラインRLアルゴリズムにおいて,サンプリング戦略の実現と,プラグイン・アンド・プレイモジュールとして使用できるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-06T17:58:14Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Understanding the Effects of Dataset Characteristics on Offline
Reinforcement Learning [4.819336169151637]
オフライン強化学習は、環境と対話することなく、特定のデータセットからポリシーを学ぶことができる。
個別動作環境におけるオフラインRLアルゴリズムの性能にデータセット特性がどう影響するかを示す。
高いTQを持つデータセットの場合、Behavior Cloningは最高のオフラインRLアルゴリズムよりも優れ、あるいは同等に動作する。
論文 参考訳(メタデータ) (2021-11-08T18:48:43Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。