Fugu-MT 論文翻訳(概要): Contextual Policy Transfer in Reinforcement Learning Domains via Deep Mixtures-of-Experts

論文の概要: Contextual Policy Transfer in Reinforcement Learning Domains via Deep Mixtures-of-Experts

arxiv url: http://arxiv.org/abs/2003.00203v2
Date: Wed, 10 Jun 2020 08:11:44 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-27 20:09:05.607363
Title: Contextual Policy Transfer in Reinforcement Learning Domains via Deep Mixtures-of-Experts
Title（参考訳）: 深層混合による強化学習領域における文脈的政策伝達
Authors: Michael Gimelfarb, Scott Sanner, Chi-Guhn Lee
Abstract要約: そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
参考スコア（独自算出の注目度）: 24.489002406693128
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In reinforcement learning, agents that consider the context, or current state, when selecting source policies for transfer have been shown to outperform context-free approaches. However, none of the existing approaches transfer knowledge contextually from model-based learners to a model-free learner. This could be useful, for instance, when source policies are intentionally learned on diverse simulations with plentiful data but transferred to a real-world setting with limited data. In this paper, we assume knowledge of estimated source task dynamics and policies, and common sub-goals but different dynamics. We introduce a novel deep mixture-of-experts formulation for learning state-dependent beliefs over source task dynamics that match the target dynamics using state trajectories collected from the target task. The mixture model is easy to interpret, demonstrates robustness to estimation errors in dynamics, and is compatible with most learning algorithms. We then show how this model can be incorporated into standard policy reuse frameworks, and demonstrate its effectiveness on benchmarks from OpenAI-Gym.
Abstract（参考訳）: 強化学習では、転送のためのソースポリシーを選択する際に、コンテキストや現在の状態を考慮するエージェントが文脈自由アプローチより優れていることが示されている。しかし、既存のアプローチでは、知識をモデルベース学習者からモデルフリー学習者へ文脈的に伝達するものではない。これは例えば、豊富なデータを持つ多様なシミュレーションで故意にソースポリシーを学習するが、限られたデータを持つ実世界環境に移行する場合に有用である。本稿では,推定対象タスクのダイナミクスとポリシー,および共通するサブゴールの知識を仮定する。本稿では,目標タスクから収集した状態トラジェクトリを用いて,対象タスクのダイナミックスにマッチするソースタスクのダイナミックスに対する状態依存的信念を学習するための,新しい深層混合型定式化を提案する。混合モデルは容易に解釈でき、ダイナミクスにおける推定誤差に対する頑健性を示し、ほとんどの学習アルゴリズムと互換性がある。次に、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示し、OpenAI-Gymのベンチマークでその効果を実証する。

関連論文リスト

Model-Based Offline Reinforcement Learning with Reliability-Guaranteed Sequence Modeling [0.0]
モデルベースオフライン強化学習(MORL)は、既存のデータセットから派生した動的モデルを利用してポリシーを学習することを目的としている。信頼性の低いトラジェクトリを除去できる新しいMORLアルゴリズム textbfReliability-guaranteed textbfTransformer (RT) を提案する。
論文参考訳（メタデータ） (2025-02-10T14:08:55Z)
Iterative Batch Reinforcement Learning via Safe Diversified Model-based Policy Search [2.0072624123275533]
バッチ強化学習は、トレーニング中に環境と直接対話することなく、ポリシー学習を可能にする。このアプローチは、工業制御のような高リスクでコストのかかるアプリケーションに適しています。本稿では,アンサンブルに基づくモデルに基づくポリシー探索に基づく反復的バッチ強化学習のためのアルゴリズム手法を提案する。
論文参考訳（メタデータ） (2024-11-14T11:10:36Z)
You are out of context! [0.0]
新しいデータは、モデルによって学習された幾何学的関係を伸ばしたり、圧縮したり、ねじったりする力として振る舞うことができる。本稿では,ベクトル空間表現における「変形」の概念に基づく機械学習モデルのための新しいドリフト検出手法を提案する。
論文参考訳（メタデータ） (2024-11-04T10:17:43Z)
Zero-shot Model-based Reinforcement Learning using Large Language Models [12.930241182192988]
本稿では,マルコフ決定過程の動的状態を予測するために,事前学習した大規模言語モデルをどのように活用することができるかを検討する。本稿では,モデルに基づく政策評価とデータ強化型オフ政治強化学習という2つの強化学習環境における概念実証の応用について述べる。
論文参考訳（メタデータ） (2024-10-15T15:46:53Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
Verified Probabilistic Policies for Deep Reinforcement Learning [6.85316573653194]
我々は、深い強化学習のための確率的政策を検証する問題に取り組む。本稿では,マルコフ決定プロセスの間隔に基づく抽象的アプローチを提案する。本稿では,抽象的解釈,混合整数線形プログラミング,エントロピーに基づく洗練,確率的モデルチェックを用いて,これらのモデルを構築・解決する手法を提案する。
論文参考訳（メタデータ） (2022-01-10T23:55:04Z)
IQ-Learn: Inverse soft-Q Learning for Imitation [95.06031307730245]
少数の専門家データからの模倣学習は、複雑な力学を持つ高次元環境では困難である。行動クローニングは、実装の単純さと安定した収束性のために広く使われている単純な方法である。本稿では,1つのQ-関数を学習することで,対向学習を回避する動的適応型ILを提案する。
論文参考訳（メタデータ） (2021-06-23T03:43:10Z)
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文参考訳（メタデータ） (2021-02-16T17:21:55Z)
Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文参考訳（メタデータ） (2020-07-14T16:42:59Z)
Meta-Reinforcement Learning Robust to Distributional Shift via Model Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文参考訳（メタデータ） (2020-06-12T13:34:46Z)
Guided Uncertainty-Aware Policy Optimization: Combining Learning and Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文参考訳（メタデータ） (2020-05-21T19:47:05Z)
Context-aware Dynamics Model for Generalization in Model-Based Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文参考訳（メタデータ） (2020-05-14T08:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。