論文の概要: Robust Reinforcement Learning under model misspecification
- arxiv url: http://arxiv.org/abs/2103.15370v1
- Date: Mon, 29 Mar 2021 06:48:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:24:39.910070
- Title: Robust Reinforcement Learning under model misspecification
- Title(参考訳): モデル不特定性に基づくロバスト強化学習
- Authors: Lebin Yu, Jian Wang and Xudong Zhang
- Abstract要約: 強化学習は近年,幅広いタスクにおいて顕著な成果を上げている。
そのうちの1つはモデルミス仕様化であり、エージェントが異なる遷移ダイナミクスを持つ環境でトレーニングされ、デプロイされる状況である。
このジレンマに対処するために,歴史軌跡と部分可観測マルコフ決定過程モデルを用いた新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 8.607994365031175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has achieved remarkable performance in a wide range of
tasks these days. Nevertheless, some unsolved problems limit its applications
in real-world control. One of them is model misspecification, a situation where
an agent is trained and deployed in environments with different transition
dynamics. We propose an novel framework that utilize history trajectory and
Partial Observable Markov Decision Process Modeling to deal with this dilemma.
Additionally, we put forward an efficient adversarial attack method to assist
robust training. Our experiments in four gym domains validate the effectiveness
of our framework.
- Abstract(参考訳): 強化学習は近年,幅広いタスクにおいて顕著な成果を上げている。
それにもかかわらず、未解決の問題は実世界の制御における応用を制限する。
その1つは、モデル誤特定(model misspecification)であり、エージェントが異なるトランジションダイナミクスを持つ環境でトレーニングされ、デプロイされる状況である。
このジレンマに対処するために,歴史軌跡と部分可観測マルコフ決定過程モデルを用いた新しい枠組みを提案する。
さらに,ロバストトレーニングを支援する効果的な対向攻撃手法を提案した。
4つの体育ドメインでの実験は、我々のフレームワークの有効性を検証する。
関連論文リスト
- Model-Based Reinforcement Learning Control of Reaction-Diffusion
Problems [0.0]
強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。
輸送されたフィールドの流れを駆動する2つの新しい報酬関数を導入する。
その結果、これらのアプリケーションで特定の制御をうまく実装できることが判明した。
論文 参考訳(メタデータ) (2024-02-22T11:06:07Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - On the Properties of Adversarially-Trained CNNs [4.769747792846005]
敵のトレーニングは、現代のニューラルネットワークアーキテクチャにおける敵の例に対して堅牢性を強制する効果的な訓練パラダイムであることが証明された。
敵攻撃に対するロバスト性を実装するメカニズムに光を当て、敵訓練されたモデルの驚くべき特性について述べる。
論文 参考訳(メタデータ) (2022-03-17T11:11:52Z) - Maximum Entropy Model-based Reinforcement Learning [0.0]
この研究は、探索技術とモデルに基づく強化学習を結びつけている。
モデルベースアプローチの特徴を考慮した新しい探索手法を考案した。
また,本手法がモデルベースアルゴリズムDreamerの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2021-12-02T13:07:29Z) - Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。
我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。
その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文 参考訳(メタデータ) (2020-12-22T00:45:24Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。