論文の概要: Behavior Estimation from Multi-Source Data for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.16078v1
- Date: Tue, 29 Nov 2022 10:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 17:50:36.524350
- Title: Behavior Estimation from Multi-Source Data for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のための多元データからの行動推定
- Authors: Guoxi Zhang and Hisashi Kashima
- Abstract要約: 行動推定は、トレーニングデータを生成するポリシーを推定することを目的としている。
この研究は、データを複数のソースから収集するシナリオについて考察する。
本研究は広範囲な評価により,行動不特定性の存在と,提案モデルの有効性を確認した。
- 参考スコア(独自算出の注目度): 20.143230846339804
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Offline reinforcement learning (RL) have received rising interest due to its
appealing data efficiency. The present study addresses behavior estimation, a
task that lays the foundation of many offline RL algorithms. Behavior
estimation aims at estimating the policy with which training data are
generated. In particular, this work considers a scenario where the data are
collected from multiple sources. In this case, neglecting data heterogeneity,
existing approaches for behavior estimation suffers from behavior
misspecification. To overcome this drawback, the present study proposes a
latent variable model to infer a set of policies from data, which allows an
agent to use as behavior policy the policy that best describes a particular
trajectory. This model provides with a agent fine-grained characterization for
multi-source data and helps it overcome behavior misspecification. This work
also proposes a learning algorithm for this model and illustrates its practical
usage via extending an existing offline RL algorithm. Lastly, with extensive
evaluation this work confirms the existence of behavior misspecification and
the efficacy of the proposed model.
- Abstract(参考訳): オフライン強化学習(RL)はその魅力あるデータ効率のために関心が高まっている。
本研究では,多くのオフラインRLアルゴリズムの基礎となる行動推定について述べる。
行動推定は、トレーニングデータを生成するポリシーを推定することを目的としている。
特に本研究では,複数のソースからデータを収集するシナリオについて考察する。
この場合、データの不均一性を無視して、行動推定のための既存のアプローチは行動の特定に悩まされる。
この欠点を克服するために,本研究では,データから一連のポリシーを推測する潜在変数モデルを提案する。
このモデルは、マルチソースデータに対するきめ細かいキャラクタリゼーションをエージェントに提供し、振舞いの特定を克服するのに役立つ。
この研究は、このモデルの学習アルゴリズムも提案し、既存のオフラインRLアルゴリズムを拡張してその実用性を示す。
最後に,本研究は,行動の誤特定の存在と提案モデルの有効性を確認した。
関連論文リスト
- Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - CUDC: A Curiosity-Driven Unsupervised Data Collection Method with
Adaptive Temporal Distances for Offline Reinforcement Learning [62.58375643251612]
本稿では,Curiosity-driven Unsupervised Data Collection (CUDC)法を提案する。
この適応的な到達性機構により、特徴表現は多様化することができ、エージェントは、好奇心で高品質なデータを集めるために自分自身をナビゲートすることができる。
実験的に、CUDCはDeepMindコントロールスイートの様々なダウンストリームオフラインRLタスクにおいて、既存の教師なし手法よりも効率と学習性能が優れている。
論文 参考訳(メタデータ) (2023-12-19T14:26:23Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Causal Deep Reinforcement Learning Using Observational Data [11.790171301328158]
深部強化学習(DRL)における2つの解答法を提案する。
提案手法はまず, 因果推論法に基づいて異なる試料の重要度を算出し, 損失関数に対する異なる試料の影響を調整する。
本手法の有効性を実証し,実験的に検証する。
論文 参考訳(メタデータ) (2022-11-28T14:34:39Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Offline Reinforcement Learning via High-Fidelity Generative Behavior
Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。
我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。
提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文 参考訳(メタデータ) (2022-09-29T04:36:23Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。