Fugu-MT 論文翻訳(概要): UDUC: An Uncertainty-driven Approach for Learning-based Robust Control

論文の概要: UDUC: An Uncertainty-driven Approach for Learning-based Robust Control

arxiv url: http://arxiv.org/abs/2405.02598v1
Date: Sat, 4 May 2024 07:48:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 19:10:59.532903
Title: UDUC: An Uncertainty-driven Approach for Learning-based Robust Control
Title（参考訳）: UDUC:学習に基づくロバスト制御のための不確実性駆動型アプローチ
Authors: Yuan Zhang, Jasper Hoffmann, Joschka Boedecker,
Abstract要約: 確率的アンサンブル(PE)モデルは、システムの力学をモデル化するための有望なアプローチを提供する。 PEモデルはモード崩壊の影響を受けやすいため、トレーニングセットと若干異なる環境に直面した場合、非破壊的な制御が生じる。我々は、PEモデルをトレーニングするための代替目的として、$textbfu$ncertainty-$textbfd$riven rob$textbfu$st $textbfc$ontrol (UDUC)損失を導入する。
参考スコア（独自算出の注目度）: 9.76247882232402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning-based techniques have become popular in both model predictive control (MPC) and reinforcement learning (RL). Probabilistic ensemble (PE) models offer a promising approach for modelling system dynamics, showcasing the ability to capture uncertainty and scalability in high-dimensional control scenarios. However, PE models are susceptible to mode collapse, resulting in non-robust control when faced with environments slightly different from the training set. In this paper, we introduce the $\textbf{u}$ncertainty-$\textbf{d}$riven rob$\textbf{u}$st $\textbf{c}$ontrol (UDUC) loss as an alternative objective for training PE models, drawing inspiration from contrastive learning. We analyze the robustness of UDUC loss through the lens of robust optimization and evaluate its performance on the challenging Real-world Reinforcement Learning (RWRL) benchmark, which involves significant environmental mismatches between the training and testing environments.
Abstract（参考訳）: 学習に基づく技術は、モデル予測制御(MPC)と強化学習(RL)の両方で人気がある。確率的アンサンブル(PE)モデルは、システムダイナミクスをモデル化するための有望なアプローチを提供し、高次元制御シナリオにおける不確実性とスケーラビリティを捉える能力を示している。しかし、PEモデルはモード崩壊の影響を受けやすいため、トレーニングセットと若干異なる環境に直面した場合、非破壊的な制御が生じる。本稿では,PEモデルの学習のための代替目的として,$\textbf{u}$ncertainty-$\textbf{d}$riven rob$\textbf{u}$st $\textbf{c}$ontrol (UDUC)ロスを導入する。実世界強化学習(Real-world Reinforcement Learning, RWRL)ベンチマークでは, トレーニング環境とテスト環境の間にかなりの環境ミスマッチが生じている。

関連論文リスト

Reinforcement Learning for Machine Learning Model Deployment: Evaluating Multi-Armed Bandits in ML Ops Environments [0.0]
本稿では,強化学習(RL)に基づくモデル管理が,展開決定をより効果的に管理できるかどうかを検討する。当社のアプローチは、デプロイされたモデルを継続的に評価し、パフォーマンスの低いモデルをリアルタイムでロールバックすることで、より適応的な運用環境を実現する。この結果から,RLベースのモデル管理は,自動化を向上し,手作業による介入への依存を軽減し,デプロイ後のモデル障害に伴うリスクを軽減することが示唆された。
論文参考訳（メタデータ） (2025-03-28T16:42:21Z)
Differentiable Information Enhanced Model-Based Reinforcement Learning [48.820039382764]
差別化可能な環境は、豊かな差別化可能な情報を提供することで、コントロールポリシーを学習する新たな可能性を秘めている。モデルベース強化学習(MBRL)法は、基礎となる物理力学を回復するために、識別可能な情報のパワーを効果的に活用する可能性を示す。しかし,2つの主要な課題は,1)より高精度な動的予測モデルの構築と,2)政策訓練の安定性の向上である。
論文参考訳（メタデータ） (2025-03-03T04:51:40Z)
Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。 MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文参考訳（メタデータ） (2024-05-20T12:31:11Z)
Exploring the Interplay of Interpretability and Robustness in Deep Neural Networks: A Saliency-guided Approach [3.962831477787584]
敵対的攻撃は、ディープラーニングモデルを安全クリティカルなアプリケーションにデプロイする上で大きな課題となる。モデルの堅牢性を維持しながら解釈可能性を確保することは、これらのモデルの信頼と理解を促進する上で不可欠である。本研究では,Saliency-Guided Trainingがモデルロバスト性に及ぼす影響について検討した。
論文参考訳（メタデータ） (2024-05-10T07:21:03Z)
Towards Robust Federated Learning via Logits Calibration on Non-IID Data [49.286558007937856]
Federated Learning(FL)は、エッジネットワークにおける分散デバイスの共同モデルトレーニングに基づく、プライバシ保護のための分散管理フレームワークである。近年の研究では、FLは敵の例に弱いことが示されており、その性能は著しく低下している。本研究では,対戦型訓練(AT)フレームワークを用いて,対戦型実例(AE)攻撃に対するFLモデルの堅牢性を向上させる。
論文参考訳（メタデータ） (2024-03-05T09:18:29Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
The Risk of Federated Learning to Skew Fine-Tuning Features and Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。 3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文参考訳（メタデータ） (2024-01-25T09:18:51Z)
COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。 $textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文参考訳（メタデータ） (2023-10-11T06:10:07Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。 CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文参考訳（メタデータ） (2021-12-16T15:33:11Z)
Evaluating model-based planning and planner amortization for continuous control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文参考訳（メタデータ） (2021-10-07T12:00:40Z)
Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文参考訳（メタデータ） (2021-05-17T08:36:18Z)
A Simple Fine-tuning Is All You Need: Towards Robust Deep Learning Via Adversarial Fine-tuning [90.44219200633286]
我々は,$textitslow start, fast decay$ learning rate schedulingストラテジーに基づく,単純かつ非常に効果的な敵の微調整手法を提案する。実験の結果,提案手法はCIFAR-10, CIFAR-100, ImageNetデータセットの最先端手法よりも優れていた。
論文参考訳（メタデータ） (2020-12-25T20:50:15Z)
Constrained Model-based Reinforcement Learning with Robust Cross-Entropy Method [30.407700996710023]
本稿では,制約違反に対するスパースインジケータ信号を用いた制約/安全強化学習問題について検討する。本稿では,ニューラルネットワークアンサンブルモデルを用いて予測の不確実性を推定し,モデル予測制御を基本制御フレームワークとして利用する。その結果,本手法は現状のベースラインよりもはるかに少ない制約違反数でタスクを完了させることが判明した。
論文参考訳（メタデータ） (2020-10-15T18:19:35Z)
Improved Adversarial Training via Learned Optimizer [101.38877975769198]
対戦型トレーニングモデルの堅牢性を改善するための枠組みを提案する。共学習のパラメータモデルの重み付けにより、提案するフレームワークは、更新方向に対するロバスト性とステップの適応性を一貫して改善する。
論文参考訳（メタデータ） (2020-04-25T20:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。