論文の概要: Transfer learning with causal counterfactual reasoning in Decision
Transformers
- arxiv url: http://arxiv.org/abs/2110.14355v1
- Date: Wed, 27 Oct 2021 11:23:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-10-28 12:29:30.319860
- Title: Transfer learning with causal counterfactual reasoning in Decision
Transformers
- Title(参考訳): 因果正則推論を用いた決定変換器の伝達学習
- Authors: Ayman Boustati, Hana Chockler, Daniel C. McNamee
- Abstract要約: 本研究では,環境力学の変化による伝達学習の課題について考察する。
具体的には、決定変換器アーキテクチャを用いて、新しい環境に対する新しいポリシーを精査する。
このメカニズムは,報奨のほとんどを維持しつつ,目標環境に対するポリシーのブートストラップを成功させることができることを示す。
- 参考スコア(独自算出の注目度): 5.672132510411465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to adapt to changes in environmental contingencies is an
important challenge in reinforcement learning. Indeed, transferring previously
acquired knowledge to environments with unseen structural properties can
greatly enhance the flexibility and efficiency by which novel optimal policies
may be constructed. In this work, we study the problem of transfer learning
under changes in the environment dynamics. In this study, we apply causal
reasoning in the offline reinforcement learning setting to transfer a learned
policy to new environments. Specifically, we use the Decision Transformer (DT)
architecture to distill a new policy on the new environment. The DT is trained
on data collected by performing policy rollouts on factual and counterfactual
simulations from the source environment. We show that this mechanism can
bootstrap a successful policy on the target environment while retaining most of
the reward.
- Abstract(参考訳): 環境問題の変化に適応する能力は、強化学習において重要な課題である。
実際、以前に取得した知識を構造的特性のない環境に移すことは、新しい最適政策を構築する際の柔軟性と効率を大幅に向上させることができる。
本研究では,環境力学の変化による伝達学習の課題について考察する。
本研究では,オフライン強化学習環境における因果推論を適用し,学習方針を新しい環境に伝達する。
具体的には、Decision Transformer (DT) アーキテクチャを使用して、新しい環境に対する新しいポリシーを精査する。
DTは、ソース環境から事実と反事実のシミュレーションをポリシーロールアウトすることで収集されたデータに基づいて訓練される。
このメカニズムは,報奨のほとんどを維持しつつ,目標環境に対するポリシーのブートストラップを成功させることができることを示す。
関連論文リスト
- A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Transfer RL via the Undo Maps Formalism [29.798971172941627]
ドメイン間で知識を伝達することは、機械学習における最も基本的な問題の1つである。
本稿では,対話型ドメイン間で知識を伝達するフレームワークTvDを提案する。
この目的が,模倣学習を想起させるポリシー更新スキームに結びつき,それを実装するための効率的なアルゴリズムを導出することを示す。
論文 参考訳(メタデータ) (2022-11-26T03:44:28Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Adaptive Policy Transfer in Reinforcement Learning [9.594432031144715]
我々は,対象タスクの解法を学ぶために,ソースポリシーを適応させる「適応から学習」可能な原則的メカニズムを導入する。
提案手法は適応と探索から学習をシームレスに組み合わせることを学び、堅牢な政策伝達アルゴリズムに導くことを示した。
論文 参考訳(メタデータ) (2021-05-10T22:42:03Z) - Augmented World Models Facilitate Zero-Shot Dynamics Generalization From
a Single Offline Environment [10.04587045407742]
大規模オフラインデータセットからの強化学習は、潜在的に安全で非現実的な探索なしにポリシを学習する能力を提供します。
オンライン環境にポリシーを移行する際のダイナミクスの変化にはほとんど注意が払われていない。
ロボットの物理的特性の潜在的な変化を捉えるための単純な変換による学習力学モデルを強化する。
論文 参考訳(メタデータ) (2021-04-12T16:53:55Z) - Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。
DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。
提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文 参考訳(メタデータ) (2020-07-08T17:56:27Z) - Environment Shaping in Reinforcement Learning using State Abstraction [63.444831173608605]
状態抽象化を用いた環境形成の新しい枠組みを提案する。
私たちのキーとなるアイデアは、ノイズの多い信号で環境の大きな状態空間を抽象空間に圧縮することです。
エージェントの方針は, 形状の環境において学習し, 元の環境において, ほぼ最適動作を保っていることを示す。
論文 参考訳(メタデータ) (2020-06-23T17:00:22Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。