論文の概要: An Investigation of Offline Reinforcement Learning in Factorisable Action Spaces
- arxiv url: http://arxiv.org/abs/2411.11088v1
- Date: Sun, 17 Nov 2024 14:31:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:35:36.568530
- Title: An Investigation of Offline Reinforcement Learning in Factorisable Action Spaces
- Title(参考訳): 要因的行動空間におけるオフライン強化学習の検討
- Authors: Alex Beeson, David Ireland, Giovanni Montana,
- Abstract要約: RLのオフライン転送の成功に対するPivotalは、データから欠落した状態-動作ペアの値推定における過大評価バイアスを軽減する。
分解された離散的な行動空間は、自然に分解可能な行動を持つ多くの実世界の問題にもかかわらず、比較的ほとんど注目されていない。
本稿では, 因数化手法の事例を提示し, 因数化条件に適応したいくつかのオフライン手法の広範な実証評価を行う。
- 参考スコア(独自算出の注目度): 5.874782446136915
- License:
- Abstract: Expanding reinforcement learning (RL) to offline domains generates promising prospects, particularly in sectors where data collection poses substantial challenges or risks. Pivotal to the success of transferring RL offline is mitigating overestimation bias in value estimates for state-action pairs absent from data. Whilst numerous approaches have been proposed in recent years, these tend to focus primarily on continuous or small-scale discrete action spaces. Factorised discrete action spaces, on the other hand, have received relatively little attention, despite many real-world problems naturally having factorisable actions. In this work, we undertake a formative investigation into offline reinforcement learning in factorisable action spaces. Using value-decomposition as formulated in DecQN as a foundation, we present the case for a factorised approach and conduct an extensive empirical evaluation of several offline techniques adapted to the factorised setting. In the absence of established benchmarks, we introduce a suite of our own comprising datasets of varying quality and task complexity. Advocating for reproducible research and innovation, we make all datasets available for public use alongside our code base.
- Abstract(参考訳): オフラインドメインへの強化学習(RL)の拡張は、特にデータ収集が重大な課題やリスクをもたらす分野において、有望な見通しを生み出す。
RLのオフライン転送の成功に対するPivotalは、データから欠落した状態-動作ペアの値推定における過大評価バイアスを軽減する。
近年、多くのアプローチが提案されているが、これらは主に連続的あるいは小規模の離散的な行動空間に焦点をあてる傾向がある。
一方、分解された離散的な行動空間は、自然に分解可能な行動を持つ多くの実世界の問題にもかかわらず、比較的ほとんど注目されていない。
本研究では,実測可能な行動空間におけるオフライン強化学習の形式的検討を行う。
DecQNで定式化された値分解を基礎として、分解されたアプローチの事例を示し、分解された設定に適応したいくつかのオフライン手法の広範な実験的な評価を行う。
確立されたベンチマークがなければ、私たちは、品質とタスクの複雑さの異なるデータセットからなる、独自のスイートを導入します。
再現可能なリサーチとイノベーションを推奨して、コードベースとともに、すべてのデータセットをパブリックに使用できるようにしています。
関連論文リスト
- Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning [4.0847743592744905]
強化学習(Reinforcement Learning, RL)は、自律運転やロボット操作といった意思決定分野で大きな成功を収めている。
RLのトレーニングアプローチは、"オン・ポリティクス(on-policy)"サンプリングを中心にしているが、データを完全には活用していない。
オフラインRLは魅力的な代替手段として現れており、特に追加実験を行うことは実用的ではない。
論文 参考訳(メタデータ) (2024-07-17T20:57:05Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Leveraging Factored Action Spaces for Efficient Offline Reinforcement
Learning in Healthcare [38.42691031505782]
本稿では, 因子化作用空間によって誘導される線形Q-関数分解の形式を提案する。
我々の手法は、状態-作用空間の未探索領域内でエージェントがより正確な推論を行うのに役立つ。
論文 参考訳(メタデータ) (2023-05-02T19:13:10Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z) - Learning Disentangled Representations for Counterfactual Regression via
Mutual Information Minimization [25.864029391642422]
相互情報最小化(MIM-DRCFR)による非現実的回帰表現を提案する。
マルチタスク学習フレームワークを用いて、潜伏要因の学習時に情報を共有し、MI最小化学習基準を取り入れ、これらの要因の独立性を確保する。
パブリックベンチマークや実世界の産業ユーザ成長データセットを含む実験は、我々の手法が最先端の手法よりもはるかに優れていることを示した。
論文 参考訳(メタデータ) (2022-06-02T12:49:41Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。