論文の概要: Counterfactual experience augmented off-policy reinforcement learning
- arxiv url: http://arxiv.org/abs/2503.13842v1
- Date: Tue, 18 Mar 2025 02:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:26.049565
- Title: Counterfactual experience augmented off-policy reinforcement learning
- Title(参考訳): オフ・ポリティクス強化学習のファクトファクトエクスペリエンス向上
- Authors: Sunbowen Lee, Yicheng Gong, Chao Deng,
- Abstract要約: CEAは効率的な推論モデルを構築し、学習データの表現性を向上する。
変分オートエンコーダを使用して状態遷移の動的パターンをモデル化する。
学習データのアウト・オブ・ディストリビューション問題を緩和するために、完全な反ファクト体験を構築する。
- 参考スコア(独自算出の注目度): 9.77739016575541
- License:
- Abstract: Reinforcement learning control algorithms face significant challenges due to out-of-distribution and inefficient exploration problems. While model-based reinforcement learning enhances the agent's reasoning and planning capabilities by constructing virtual environments, training such virtual environments can be very complex. In order to build an efficient inference model and enhance the representativeness of learning data, we propose the Counterfactual Experience Augmentation (CEA) algorithm. CEA leverages variational autoencoders to model the dynamic patterns of state transitions and introduces randomness to model non-stationarity. This approach focuses on expanding the learning data in the experience pool through counterfactual inference and performs exceptionally well in environments that follow the bisimulation assumption. Environments with bisimulation properties are usually represented by discrete observation and action spaces, we propose a sampling method based on maximum kernel density estimation entropy to extend CEA to various environments. By providing reward signals for counterfactual state transitions based on real information, CEA constructs a complete counterfactual experience to alleviate the out-of-distribution problem of the learning data, and outperforms general SOTA algorithms in environments with difference properties. Finally, we discuss the similarities, differences and properties of generated counterfactual experiences and real experiences. The code is available at https://github.com/Aegis1863/CEA.
- Abstract(参考訳): 強化学習制御アルゴリズムは、アウト・オブ・ディストリビューションと非効率的な探索問題により、重大な課題に直面している。
モデルに基づく強化学習は仮想環境を構築することによってエージェントの推論と計画能力を高めるが、そのような仮想環境の訓練は非常に複雑である。
本稿では,効率的な推論モデルを構築し,学習データの表現性を向上するために,CEAアルゴリズムを提案する。
CEAは変分オートエンコーダを利用して状態遷移の動的パターンをモデル化し、非定常性モデルにランダム性を導入する。
このアプローチは, 実例推論を通じて体験プール内の学習データを拡張することに焦点を当て, バイシミュレーション仮定に従う環境において, 極めて良好に機能する。
バイシミュレート特性を持つ環境は通常、離散観測とアクション空間で表現されるが、最大カーネル密度推定エントロピーに基づくサンプリング手法を提案し、CEAを様々な環境に拡張する。
実情報に基づく対実状態遷移に対する報奨信号を提供することにより、CEAは学習データのアウト・オブ・ディストリビューション問題を緩和し、相違した環境下での一般的なSOTAアルゴリズムよりも優れる、完全な対実体験を構築する。
最後に、生成した対実体験と実体験の類似点、相違点、特性について論じる。
コードはhttps://github.com/Aegis1863/CEAで公開されている。
関連論文リスト
- Inverse Reinforcement Learning by Estimating Expertise of Demonstrators [15.662820454886205]
IRLEED(Inverse Reinforcement Learning by Estimating Expertise of Demonstrators)は、実証者の専門知識の事前知識なしにハードルを克服する新しいフレームワークである。
IRLEEDは既存の逆強化学習(IRL)アルゴリズムを強化し、報酬バイアスと行動分散に対処するために、実証者準最適性のための一般的なモデルを組み合わせる。
オンラインおよびオフラインのIL設定、シミュレーションと人為的なデータによる実験は、IRLEEDの適応性と有効性を示している。
論文 参考訳(メタデータ) (2024-02-02T20:21:09Z) - Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文 参考訳(メタデータ) (2023-08-24T05:26:42Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Action-Sufficient State Representation Learning for Control with
Structural Constraints [21.47086290736692]
本稿では,部分的に観測可能な環境に焦点をあて,意思決定に十分な情報を収集する,最小限の状態表現の集合を学習することを提案する。
システム内の変数間の構造的関係のための生成環境モデルを構築し、ASRを特徴付けるための原則的な方法を提案する。
CarRacing と VizDoom の実証実験の結果は,ASR を政策学習に活用する上で,明らかな優位性を示している。
論文 参考訳(メタデータ) (2021-10-12T03:16:26Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。