Fugu-MT 論文翻訳(概要): Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption

論文の概要: Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption

arxiv url: http://arxiv.org/abs/2405.19014v2
Date: Tue, 4 Jun 2024 13:51:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 10:40:04.669719
Title: Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption
Title（参考訳）: 自らを信頼するモデルを信頼する - 不確かさを意識したロールアウト適応を用いたモデルベースアクタ批判
Authors: Bernd Frauenknecht, Artur Eisele, Devdutt Subhasish, Friedrich Solowjow, Sebastian Trimpe,
Abstract要約: ダイナスタイルモデルベース強化学習(MBRL)はモデルベースロールアウトを通じてモデルフリーエージェントと予測遷移モデルを組み合わせる。そこで本研究では,データ効率と性能の大幅な向上を図り,使い易いロールアウト機構を提案する。
参考スコア（独自算出の注目度）: 4.664767161598515
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dyna-style model-based reinforcement learning (MBRL) combines model-free agents with predictive transition models through model-based rollouts. This combination raises a critical question: 'When to trust your model?'; i.e., which rollout length results in the model providing useful data? Janner et al. (2019) address this question by gradually increasing rollout lengths throughout the training. While theoretically tempting, uniform model accuracy is a fallacy that collapses at the latest when extrapolating. Instead, we propose asking the question 'Where to trust your model?'. Using inherent model uncertainty to consider local accuracy, we obtain the Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption (MACURA) algorithm. We propose an easy-to-tune rollout mechanism and demonstrate substantial improvements in data efficiency and performance compared to state-of-the-art deep MBRL methods on the MuJoCo benchmark.
Abstract（参考訳）: ダイナスタイルモデルベース強化学習(MBRL)はモデルベースロールアウトを通じてモデルフリーエージェントと予測遷移モデルを組み合わせる。この組み合わせは、重要な疑問を提起する: 「モデルをいつ信頼するか?」、すなわち、どのロールアウト期間が、有用なデータを提供するモデルに結果をもたらすか? Janner et al (2019)は、トレーニング全体を通して徐々にロールアウトの長さを増やしてこの問題に対処している。理論上は誘惑的であるが、一様モデルの精度は、外挿時に最新の段階で崩壊する誤りである。その代わり、我々は「モデルを信頼するだろうか」という質問をする。局所的精度を考慮するために固有モデル不確実性を用いることで、不確かさを意識したロールアウト適応(MACURA)アルゴリズムを得る。本研究では, MuJoCo ベンチマークにおける最先端の深層MBRL 法と比較して, データの効率と性能を著しく向上する機構を提案する。

関連論文リスト

Model Inversion with Layer-Specific Modeling and Alignment for Data-Free Continual Learning [19.12792297140574]
継続的な学習は、以前のタスクのパフォーマンスを維持しながら、一連のタスクでモデルを漸進的にトレーニングすることを目的としています。データの保存と再生は、プライバシやセキュリティ上の制約によって不可能になることが多い。単層最適化における高速収束にインスパイアされたPMI(Per-layer Model Inversion)を提案する。
論文参考訳（メタデータ） (2025-10-30T09:58:48Z)
Intention-Conditioned Flow Occupancy Models [69.79049994662591]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文参考訳（メタデータ） (2025-06-10T15:27:46Z)
On Rollouts in Model-Based Reinforcement Learning [5.004576576202551]
モデルベース強化学習(MBRL)は、環境のモデルを学び、そこから合成ロールアウトを生成することにより、データ効率を向上させることを目指している。これらのロールアウト中に蓄積されたモデルエラーは、データの分散を歪め、ポリシー学習に悪影響を及ぼし、長期計画を妨げる可能性がある。本稿では,アレータリックをモデル不確実性から分離し,データ分布に対する後者の影響を低減するモデルベースのロールアウト機構であるInfopropを提案する。
論文参考訳（メタデータ） (2025-01-28T13:02:52Z)
Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,繰り返しのトレーニングにおいて安定な機械学習モデルのシーケンスを見つける手法を提案する。最適モデルの復元が保証される混合整数最適化の定式化を開発する。本手法は, 予測力の小さい, 制御可能な犠牲を伴い, 厳密に訓練されたモデルよりも強い安定性を示す。
論文参考訳（メタデータ） (2024-03-28T22:45:38Z)
ALUM: Adversarial Data Uncertainty Modeling from Latent Model Uncertainty Compensation [25.67258563807856]
本稿では,モデル不確実性とデータ不確実性を扱うALUMという新しい手法を提案する。提案するALUMはモデルに依存しないため,オーバーヘッドの少ない既存のディープモデルに容易に実装できる。
論文参考訳（メタデータ） (2023-03-29T17:24:12Z)
Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文参考訳（メタデータ） (2023-02-08T07:37:51Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文参考訳（メタデータ） (2021-10-06T13:43:27Z)
Model-based micro-data reinforcement learning: what are the crucial model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文参考訳（メタデータ） (2021-07-24T11:38:25Z)
Learnable Boundary Guided Adversarial Training [66.57846365425598]
私たちは、あるクリーンモデルからのモデルロジットを使用して、別のロバストモデルの学習をガイドします。我々は、CIFAR-100上で、追加の実データや合成データなしで、新しい最先端のロバスト性を実現する。
論文参考訳（メタデータ） (2020-11-23T01:36:05Z)
Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文参考訳（メタデータ） (2020-10-27T17:54:12Z)
Trust the Model When It Is Confident: Masked Model-based Actor-Critic [11.675078067322897]
Masked Model-based Actor-Critic (M2AC)は、新しいポリシー最適化アルゴリズムである。 M2ACはモデルの不確実性に基づいてマスキング機構を実装し、その予測が使用されるかどうかを決定する。
論文参考訳（メタデータ） (2020-10-10T03:39:56Z)
VAE-LIME: Deep Generative Model Based Approach for Local Data-Driven Model Interpretability Applied to the Ironmaking Industry [70.10343492784465]
モデル予測だけでなく、その解釈可能性も、プロセスエンジニアに公開する必要があります。 LIMEに基づくモデルに依存しない局所的解釈可能性ソリューションが最近出現し、元の手法が改良された。本稿では, 燃焼炉で生成する高温金属の温度を推定するデータ駆動型モデルの局所的解釈可能性に関する新しいアプローチ, VAE-LIMEを提案する。
論文参考訳（メタデータ） (2020-07-15T07:07:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。