論文の概要: Augmenting Offline RL with Unlabeled Data
- arxiv url: http://arxiv.org/abs/2406.07117v1
- Date: Tue, 11 Jun 2024 10:02:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 16:34:54.459896
- Title: Augmenting Offline RL with Unlabeled Data
- Title(参考訳): ラベルなしデータによるオフラインRLの拡張
- Authors: Zhao Wang, Briti Gangopadhyay, Jia-Fong Yeh, Shingo Takamatsu,
- Abstract要約: オフライン強化学習(Offline RL)におけるアウト・オブ・ディストリビューション(OOD)問題に対する新しいアプローチを提案する。
政策類似度尺度を補完するオフラインのRL教師学生フレームワークを導入する。
このフレームワークにより、学生の政策は、オフラインのRLデータセットだけでなく、教師の方針によって伝達される知識からも洞察を得ることができる。
- 参考スコア(独自算出の注目度): 10.068880918932415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in offline Reinforcement Learning (Offline RL) have led to an increased focus on methods based on conservative policy updates to address the Out-of-Distribution (OOD) issue. These methods typically involve adding behavior regularization or modifying the critic learning objective, focusing primarily on states or actions with substantial dataset support. However, we challenge this prevailing notion by asserting that the absence of an action or state from a dataset does not necessarily imply its suboptimality. In this paper, we propose a novel approach to tackle the OOD problem. We introduce an offline RL teacher-student framework, complemented by a policy similarity measure. This framework enables the student policy to gain insights not only from the offline RL dataset but also from the knowledge transferred by a teacher policy. The teacher policy is trained using another dataset consisting of state-action pairs, which can be viewed as practical domain knowledge acquired without direct interaction with the environment. We believe this additional knowledge is key to effectively solving the OOD issue. This research represents a significant advancement in integrating a teacher-student network into the actor-critic framework, opening new avenues for studies on knowledge transfer in offline RL and effectively addressing the OOD challenge.
- Abstract(参考訳): オフライン強化学習(Offline RL)の最近の進歩は、アウト・オブ・ディストリビューション(OOD)問題に対処するための保守的な政策更新に基づく手法に焦点が当てられている。
これらの手法は通常、行動規則化の追加や批判的学習の目的の変更を伴い、主に実質的なデータセットをサポートする状態やアクションに焦点を当てる。
しかし、データセットからのアクションや状態の欠如が必ずしもその亜最適性を意味するとは限らないと主張することで、この一般的な概念に挑戦する。
本稿では,OOD問題に対する新しいアプローチを提案する。
政策類似度尺度を補完するオフラインのRL教師学生フレームワークを導入する。
このフレームワークにより、学生の政策は、オフラインのRLデータセットだけでなく、教師の方針によって伝達される知識からも洞察を得ることができる。
教師の方針は、状態-作用ペアからなる別のデータセットを用いて訓練され、環境と直接対話することなく、実践的なドメイン知識とみなすことができる。
我々は、この追加知識がOOD問題を効果的に解決する鍵だと信じています。
本研究は,教師と学生のネットワークをアクター・クリティカルな枠組みに統合し,オフラインRLにおける知識伝達研究の新たな道を開くこと,OOD課題に効果的に対処することの意義を示す。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate
Exploration Bias [96.14064037614942]
オンライン微調整終了時の方針抽出段階であるオフラインリトレーニングを提案する。
楽観的(探索的)ポリシーは環境と相互作用するために使用され、別の悲観的(探索的)ポリシーは観察されたすべてのデータに基づいて訓練され、評価される。
論文 参考訳(メタデータ) (2023-10-12T17:50:09Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Data Valuation for Offline Reinforcement Learning [1.3535770763481902]
オフライン強化学習の分野は、データの収集をドメインの専門家や注意深く監視されたプログラムにアウトソーシングすることで問題に対処する。
データマーケットの出現に伴い、社内でデータセットを構築する代替手段として、外部データを購入することが挙げられる。
これにより、外部から取得したデータに基づいてトレーニングされたオフライン強化学習エージェントの転送可能性と堅牢性に関する疑問が提起される。
論文 参考訳(メタデータ) (2022-05-19T13:21:40Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Combining Online Learning and Offline Learning for Contextual Bandits
with Deficient Support [53.11601029040302]
現在のオフライン政治学習アルゴリズムは、主に逆確率スコア(IPS)重み付けに基づいている。
オフライン学習とオンライン探索を組み合わせた新しい手法を提案する。
提案手法は,最小限のオンライン探索数を用いて理論的保証を伴う最適政策を決定する。
論文 参考訳(メタデータ) (2021-07-24T05:07:43Z) - Representation Matters: Offline Pretraining for Sequential Decision
Making [27.74988221252854]
本稿では,オフラインデータを逐次意思決定に組み込む手法について考察する。
教師なし学習目標を用いた事前学習は,政策学習アルゴリズムの性能を劇的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-11T02:38:12Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。