論文の概要: Debiased Offline Representation Learning for Fast Online Adaptation in
Non-stationary Dynamics
- arxiv url: http://arxiv.org/abs/2402.11317v1
- Date: Sat, 17 Feb 2024 16:03:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:59:47.701135
- Title: Debiased Offline Representation Learning for Fast Online Adaptation in
Non-stationary Dynamics
- Title(参考訳): 非定常力学における高速オンライン適応のためのデバイアスオフライン表現学習
- Authors: Xinyu Zhang, Wenjie Qiu, Yi-Chen Li, Lei Yuan, Chengxing Jia,
Zongzhang Zhang, Yang Yu
- Abstract要約: 高速オンライン適応(DORA)のためのデバイアスドオフライン表現(Debiased Offline Representation)という新しいアプローチを導入する。
DORAは、動的エンコーディングと環境データの間の相互情報を最大化する情報ボトルネック原理を取り入れている。
本稿では,情報ボトルネック原理のトラクタブルバウンダリを活用したDORAの実践的実装を提案する。
- 参考スコア(独自算出の注目度): 33.07049687229385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing policies that can adjust to non-stationary environments is
essential for real-world reinforcement learning applications. However, learning
such adaptable policies in offline settings, with only a limited set of
pre-collected trajectories, presents significant challenges. A key difficulty
arises because the limited offline data makes it hard for the context encoder
to differentiate between changes in the environment dynamics and shifts in the
behavior policy, often leading to context misassociations. To address this
issue, we introduce a novel approach called Debiased Offline Representation for
fast online Adaptation (DORA). DORA incorporates an information bottleneck
principle that maximizes mutual information between the dynamics encoding and
the environmental data, while minimizing mutual information between the
dynamics encoding and the actions of the behavior policy. We present a
practical implementation of DORA, leveraging tractable bounds of the
information bottleneck principle. Our experimental evaluation across six
benchmark MuJoCo tasks with variable parameters demonstrates that DORA not only
achieves a more precise dynamics encoding but also significantly outperforms
existing baselines in terms of performance.
- Abstract(参考訳): 非定常環境に適応できる政策の開発は、実世界の強化学習アプリケーションにとって不可欠である。
しかし、そのような適応可能なポリシーをオフライン設定で学習するには、事前コンパイルされた軌道の限られたセットしか必要としない。
オフラインデータに制限があるため、コンテキストエンコーダが環境のダイナミクスの変化と振る舞いポリシーの変化を区別することが難しくなり、しばしばコンテキストの誤結合につながるため、重要な困難が生じる。
この問題に対処するために、高速オンライン適応(DORA)のためのDebiased Offline Representationと呼ばれる新しいアプローチを導入する。
DORAは、動的エンコーディングと環境データ間の相互情報を最大化しつつ、動的エンコーディングと行動ポリシーの動作間の相互情報を最小化する情報ボトルネック原理を取り入れている。
本稿では,情報ボトルネック原理のトラクタブルバウンダリを活用したDORAの実践的実装を提案する。
変数パラメータを持つ6つのベンチマークMuJoCoタスクに対する実験的な評価は、DORAがより正確なダイナミックス符号化を実現するだけでなく、性能の点で既存のベースラインを著しく上回ることを示す。
関連論文リスト
- Markov Balance Satisfaction Improves Performance in Strictly Batch Offline Imitation Learning [8.92571113137362]
本研究では,模倣者が観察行動にのみ依存し,学習中に環境相互作用を起こさないシナリオに対処する。
State-of-the-art(SOTA IL)の手法とは異なり、このアプローチはより制約のある現実的な環境で動作することで従来のILの制限に対処する。
我々は多くのSOTA ILアルゴリズムと比較して実験性能が一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-08-17T07:17:19Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Cross-Domain Policy Adaptation via Value-Guided Data Filtering [57.62692881606099]
動的ミスマッチで異なるドメインにまたがるポリシーを一般化することは、強化学習において重要な課題となる。
本稿では、ペア化された値ターゲットの近接に基づいて、ソースドメインからの遷移を選択的に共有するバリューガイドデータフィルタリング(VGDF)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-28T04:08:40Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Decomposed Mutual Information Optimization for Generalized Context in
Meta-Reinforcement Learning [35.87062321504049]
複数の共同創設者がトランジションのダイナミクスに影響を与える可能性があるため、意思決定の正確なコンテキストを推測することは難しい。
本稿では、文脈学習におけるDOMINO(Decomposed Mutual Information Optimization)の課題に対処する。
理論的分析により,DOMINOは,多元的課題による相互情報の過小評価を克服できることが示された。
論文 参考訳(メタデータ) (2022-10-09T09:44:23Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - PAnDR: Fast Adaptation to New Environments from Offline Experiences via
Decoupling Policy and Environment Representations [39.11141327059819]
我々は、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。
オフライン学習では、環境表現と政策表現は、対照的な学習と政策回復を通じて学習される。
オンライン適応フェーズでは、新しい環境で収集された少数の経験から環境コンテキストを推定し、勾配上昇によってポリシーを最適化する。
論文 参考訳(メタデータ) (2022-04-06T14:47:35Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。