論文の概要: MBDP: A Model-based Approach to Achieve both Robustness and Sample Efficiency via Double Dropout Planning
- arxiv url: http://arxiv.org/abs/2108.01295v2
- Date: Thu, 2 May 2024 14:38:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-05 18:14:01.200466
- Title: MBDP: A Model-based Approach to Achieve both Robustness and Sample Efficiency via Double Dropout Planning
- Title(参考訳): MBDP:ダブルドロップアウト計画によるロバストネスとサンプル効率の両立に向けたモデルベースアプローチ
- Authors: Wanpeng Zhang, Xi Xiao, Yao Yao, Mingzhe Chen, Dijun Luo,
- Abstract要約: 頑健性と効率のバランスをとるために,モデルベースダブルドロップアウト計画(MBDP)を提案する。
MBDPの有効性は理論的にも実験的にも示される。
- 参考スコア(独自算出の注目度): 28.151714475955256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning is a widely accepted solution for solving excessive sample demands. However, the predictions of the dynamics models are often not accurate enough, and the resulting bias may incur catastrophic decisions due to insufficient robustness. Therefore, it is highly desired to investigate how to improve the robustness of model-based RL algorithms while maintaining high sampling efficiency. In this paper, we propose Model-Based Double-dropout Planning (MBDP) to balance robustness and efficiency. MBDP consists of two kinds of dropout mechanisms, where the rollout-dropout aims to improve the robustness with a small cost of sample efficiency, while the model-dropout is designed to compensate for the lost efficiency at a slight expense of robustness. By combining them in a complementary way, MBDP provides a flexible control mechanism to meet different demands of robustness and efficiency by tuning two corresponding dropout ratios. The effectiveness of MBDP is demonstrated both theoretically and experimentally.
- Abstract(参考訳): モデルに基づく強化学習は、過剰なサンプル要求を解決するための広く受け入れられているソリューションである。
しかし、力学モデルの予測は必ずしも正確ではなく、結果として生じるバイアスは、不十分な堅牢性のために破滅的な決定を引き起こす可能性がある。
そのため,高サンプリング効率を維持しつつ,モデルベースRLアルゴリズムのロバスト性を改善する方法について検討することが望まれている。
本稿では,ロバスト性と効率のバランスをとるために,モデルベースダブルドロップアウト計画(MBDP)を提案する。
MBDPは2種類のドロップアウト機構から構成されており、ロールアウト・ドロップアウトは少量のサンプル効率でロバスト性を改善することを目的としており、モデル・ドロップアウトはロバスト性をわずかに犠牲にして損失効率を補うように設計されている。
相補的な方法で組み合わせることで、MBDPは、2つの対応するドロップアウト比を調整することによって、異なる堅牢性と効率性の要求を満たす柔軟な制御機構を提供する。
MBDPの有効性は理論的にも実験的にも示される。
関連論文リスト
- RCDM: Enabling Robustness for Conditional Diffusion Model [2.4915590770454035]
条件拡散モデル(CDM)は、より多くの制御を提供することで標準拡散モデルを強化する。
CDMの逆過程における不正確な条件入力は、ニューラルネットワークの固定エラーを生じさせるのが容易である。
本稿では,ロバスト条件拡散モデル(RCDM)を提案する。
論文 参考訳(メタデータ) (2024-08-05T13:12:57Z) - Diffusion Model for Data-Driven Black-Box Optimization [54.25693582870226]
我々は、強力な生成AI技術である拡散モデルに注目し、ブラックボックス最適化の可能性について検討する。
本研究では,1)実数値報酬関数のノイズ測定と,2)対比較に基づく人間の嗜好の2種類のラベルについて検討する。
提案手法は,設計最適化問題を条件付きサンプリング問題に再構成し,拡散モデルのパワーを有効活用する。
論文 参考訳(メタデータ) (2024-03-20T00:41:12Z) - Adversarial Fine-tuning of Compressed Neural Networks for Joint Improvement of Robustness and Efficiency [3.3490724063380215]
アドリラルトレーニングは、より堅牢なモデルをもたらすことができる緩和戦略として提示されている。
本稿では,2つの異なるモデル圧縮手法(構造的重み打ち法と量子化法)が対向ロバスト性に及ぼす影響について検討する。
本研究では, 圧縮モデルの逆方向微調整により, 対向訓練モデルに匹敵する強靭性性能が得られることを示す。
論文 参考訳(メタデータ) (2024-03-14T14:34:25Z) - DistiLLM: Towards Streamlined Distillation for Large Language Models [53.46759297929675]
DistiLLMは自動回帰言語モデルのためのより効率的で効率的なKDフレームワークである。
DisiLLMは,(1)新しいスキューKulback-Leibler分散損失,(2)学生生成出力の効率向上を目的とした適応型オフ政治アプローチの2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-02-06T11:10:35Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Decision-Dependent Distributionally Robust Markov Decision Process
Method in Dynamic Epidemic Control [4.644416582073023]
Susceptible-Exposed-Infectious-Recovered (SEIR) モデルは感染症の拡散を表すために広く用いられている。
本稿では,動的流行制御問題に対処するために,分布ロバストマルコフ決定プロセス(DRMDP)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:19:04Z) - Model-Free Robust Average-Reward Reinforcement Learning [25.125481838479256]
我々は,モデルフリーの反復設定の下で,ロバストな平均回帰MDPに着目した。
我々は2つのモデルフリーアルゴリズム、ロバスト相対値(RVI)TDとロバスト相対値(RVI)Q-ラーニングを設計し、理論的に最適解への収束性を証明した。
論文 参考訳(メタデータ) (2023-05-17T18:19:23Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。