Fugu-MT 論文翻訳(概要): Robust Reinforcement Learning under model misspecification

論文の概要: Robust Reinforcement Learning under model misspecification

arxiv url: http://arxiv.org/abs/2103.15370v1
Date: Mon, 29 Mar 2021 06:48:26 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-30 15:24:39.910070
Title: Robust Reinforcement Learning under model misspecification
Title（参考訳）: モデル不特定性に基づくロバスト強化学習
Authors: Lebin Yu, Jian Wang and Xudong Zhang
Abstract要約: 強化学習は近年,幅広いタスクにおいて顕著な成果を上げている。そのうちの1つはモデルミス仕様化であり、エージェントが異なる遷移ダイナミクスを持つ環境でトレーニングされ、デプロイされる状況である。このジレンマに対処するために,歴史軌跡と部分可観測マルコフ決定過程モデルを用いた新しい枠組みを提案する。
参考スコア（独自算出の注目度）: 8.607994365031175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning has achieved remarkable performance in a wide range of tasks these days. Nevertheless, some unsolved problems limit its applications in real-world control. One of them is model misspecification, a situation where an agent is trained and deployed in environments with different transition dynamics. We propose an novel framework that utilize history trajectory and Partial Observable Markov Decision Process Modeling to deal with this dilemma. Additionally, we put forward an efficient adversarial attack method to assist robust training. Our experiments in four gym domains validate the effectiveness of our framework.
Abstract（参考訳）: 強化学習は近年,幅広いタスクにおいて顕著な成果を上げている。それにもかかわらず、未解決の問題は実世界の制御における応用を制限する。その1つは、モデル誤特定(model misspecification)であり、エージェントが異なるトランジションダイナミクスを持つ環境でトレーニングされ、デプロイされる状況である。このジレンマに対処するために,歴史軌跡と部分可観測マルコフ決定過程モデルを用いた新しい枠組みを提案する。さらに,ロバストトレーニングを支援する効果的な対向攻撃手法を提案した。 4つの体育ドメインでの実験は、我々のフレームワークの有効性を検証する。

関連論文リスト

Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
Sustainable Self-evolution Adversarial Training [51.25767996364584]
対戦型防衛モデルのための持続的自己進化支援訓練(SSEAT)フレームワークを提案する。本研究は,様々な種類の対角的事例から学習を実現するために,連続的な対向防衛パイプラインを導入する。また,より多様で重要な再学習データを選択するために,逆データ再生モジュールを提案する。
論文参考訳（メタデータ） (2024-12-03T08:41:11Z)
Reward-free World Models for Online Imitation Learning [25.304836126280424]
本研究では,報酬のない世界モデルを活用したオンライン模倣学習手法を提案する。提案手法は, 復元を伴わない潜在空間における環境力学を学習し, 効率的かつ高精度なモデリングを可能にする。 DMControl,myoSuite, ManiSkill2 など,様々なベンチマークを用いて本手法の評価を行い,既存手法と比較して優れた実証性能を示した。
論文参考訳（メタデータ） (2024-10-17T23:13:32Z)
Dynamic Label Adversarial Training for Deep Learning Robustness Against Adversarial Attacks [11.389689242531327]
対人訓練は、モデルの堅牢性を高める最も効果的な方法の1つである。従来のアプローチでは、主に敵の訓練に静的接地真理を用いるが、しばしば強固なオーバーフィッティングを引き起こす。本稿では,動的ラベル対逆トレーニング(DYNAT)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-08-23T14:25:12Z)
Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9109581496560044]
特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文参考訳（メタデータ） (2024-06-14T12:37:08Z)
Model-Based Reinforcement Learning Control of Reaction-Diffusion Problems [0.0]
強化学習はいくつかのアプリケーション、特にゲームにおいて意思決定に応用されている。輸送されたフィールドの流れを駆動する2つの新しい報酬関数を導入する。その結果、これらのアプリケーションで特定の制御をうまく実装できることが判明した。
論文参考訳（メタデータ） (2024-02-22T11:06:07Z)
Learn from the Past: A Proxy Guided Adversarial Defense Framework with Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。 AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文参考訳（メタデータ） (2023-10-19T13:13:41Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Self-Supervised Reinforcement Learning that Transfers using Random Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文参考訳（メタデータ） (2023-05-26T20:37:06Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文参考訳（メタデータ） (2022-04-03T02:29:11Z)
Self-Progressing Robust Training [146.8337017922058]
敵対的なトレーニングのような現在の堅牢なトレーニング方法は、敵対的な例を生成するために「攻撃」を明示的に使用します。我々はSPROUTと呼ばれる自己プログレッシブ・ロバスト・トレーニングのための新しいフレームワークを提案する。その結果,スケーラブルで効果的で攻撃に依存しないロバストなトレーニング手法に新たな光を当てた。
論文参考訳（メタデータ） (2020-12-22T00:45:24Z)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-10-23T03:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。