論文の概要: Integrating Domain Knowledge for handling Limited Data in Offline RL
- arxiv url: http://arxiv.org/abs/2406.07041v1
- Date: Tue, 11 Jun 2024 07:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:54:22.937313
- Title: Integrating Domain Knowledge for handling Limited Data in Offline RL
- Title(参考訳): オフラインRLにおける限定データ処理のためのドメイン知識の統合
- Authors: Briti Gangopadhyay, Zhao Wang, Jia-Fong Yeh, Shingo Takamatsu,
- Abstract要約: オフラインのRLアルゴリズムは、状態空間内の特定の領域に制限された限られたデータに直面した場合に、準最適に実行する。
本稿では、ドメイン知識に基づく新しい正規化手法を提案し、初期ドメイン知識を適応的に洗練し、部分的に省略された状態の限られたデータの性能を向上させる。
- 参考スコア(独自算出の注目度): 10.068880918932415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the ability to learn from static datasets, Offline Reinforcement Learning (RL) emerges as a compelling avenue for real-world applications. However, state-of-the-art offline RL algorithms perform sub-optimally when confronted with limited data confined to specific regions within the state space. The performance degradation is attributed to the inability of offline RL algorithms to learn appropriate actions for rare or unseen observations. This paper proposes a novel domain knowledge-based regularization technique and adaptively refines the initial domain knowledge to considerably boost performance in limited data with partially omitted states. The key insight is that the regularization term mitigates erroneous actions for sparse samples and unobserved states covered by domain knowledge. Empirical evaluations on standard discrete environment datasets demonstrate a substantial average performance increase of at least 27% compared to existing offline RL algorithms operating on limited data.
- Abstract(参考訳): 静的データセットから学習する機能により、オフライン強化学習(RL)が現実のアプリケーションにとって魅力的な道として登場した。
しかし、最先端のオフラインRLアルゴリズムは、状態空間内の特定の領域に限定された限られたデータに直面した場合に、準最適に実行する。
性能劣化は、オフラインのRLアルゴリズムが希少または未確認の観測に対して適切な動作を学習できないことに起因する。
本稿では,新しいドメイン知識に基づく正規化手法を提案し,初期ドメイン知識を適応的に改良し,部分省略状態を持つ限られたデータの性能を著しく向上させる。
重要な洞察は、正規化という用語が、スパースサンプルとドメイン知識によってカバーされた観測されていない状態に対する誤ったアクションを緩和するということである。
標準的な離散環境データセットに対する実証的な評価は、制限されたデータで運用されている既存のオフラインRLアルゴリズムと比較して、少なくとも27%の平均的なパフォーマンス向上を示している。
関連論文リスト
- D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。