論文の概要: Towards Unraveling and Improving Generalization in World Models
- arxiv url: http://arxiv.org/abs/2501.00195v1
- Date: Tue, 31 Dec 2024 00:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:16.488114
- Title: Towards Unraveling and Improving Generalization in World Models
- Title(参考訳): 世界モデルにおける一般化の展開と改善に向けて
- Authors: Qiaoyi Fang, Weiyu Du, Hang Wang, Junshan Zhang,
- Abstract要約: この研究は、世界モデルの堅牢性と一般化能力を深く理解することを目的としている。
遅延表現誤差がロバスト性および一般化に与える影響を特徴付ける。
非ゼロドリフトの複合的誤り伝播効果を軽減するためのヤコビ正規化手法を提案する。
- 参考スコア(独自算出の注目度): 29.54936027897926
- License:
- Abstract: World models have recently emerged as a promising approach to reinforcement learning (RL), achieving state-of-the-art performance across a wide range of visual control tasks. This work aims to obtain a deep understanding of the robustness and generalization capabilities of world models. Thus motivated, we develop a stochastic differential equation formulation by treating the world model learning as a stochastic dynamical system, and characterize the impact of latent representation errors on robustness and generalization, for both cases with zero-drift representation errors and with non-zero-drift representation errors. Our somewhat surprising findings, based on both theoretic and experimental studies, reveal that for the case with zero drift, modest latent representation errors can in fact function as implicit regularization and hence result in improved robustness. We further propose a Jacobian regularization scheme to mitigate the compounding error propagation effects of non-zero drift, thereby enhancing training stability and robustness. Our experimental studies corroborate that this regularization approach not only stabilizes training but also accelerates convergence and improves accuracy of long-horizon prediction.
- Abstract(参考訳): 最近、世界モデルは強化学習(RL)への有望なアプローチとして現れ、幅広い視覚制御タスクで最先端のパフォーマンスを実現している。
この研究は、世界モデルの堅牢性と一般化能力を深く理解することを目的としている。
そこで我々は,世界モデル学習を確率力学系として扱うことで確率微分方程式の定式化を開発し,ゼロドリフト表現誤差と非ゼロドリフト表現誤差の両方の場合において,潜在表現誤差がロバスト性や一般化に与える影響を特徴付ける。
理論的および実験的な研究から、ゼロドリフトの場合、控えめな潜在表現誤差は暗黙の正則化として機能し、結果として堅牢性が向上することが明らかとなった。
さらに,非ゼロドリフトの複合誤差伝搬効果を緩和し,トレーニング安定性とロバスト性を向上するヤコビアン正規化手法を提案する。
実験により,この正規化手法はトレーニングを安定化するだけでなく,収束を加速し,長期予測の精度を向上させることが確認された。
関連論文リスト
- Enhancing Robust Fairness via Confusional Spectral Regularization [6.041034366572273]
PAC-Bayesian フレームワーク内の最悪のクラスにおけるロバストなエラーに対して、ロバストな一般化を導出する。
本稿では,最低級のロバストな精度を向上し,ロバストな公正性を向上する新たな正則化手法を提案する。
論文 参考訳(メタデータ) (2025-01-22T23:32:19Z) - Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-19T03:15:41Z) - On the KL-Divergence-based Robust Satisficing Model [2.425685918104288]
頑丈さを満足させる枠組みは 学界から注目を集めています
本稿では,解析的解釈,多様な性能保証,効率的で安定した数値法,収束解析,階層型データ構造に適した拡張について述べる。
我々は、最先端のベンチマークと比較して、モデルの性能が優れていることを実証する。
論文 参考訳(メタデータ) (2024-08-17T10:05:05Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - Training Generative Adversarial Networks by Solving Ordinary
Differential Equations [54.23691425062034]
GANトレーニングによって引き起こされる連続時間ダイナミクスについて検討する。
この観点から、GANのトレーニングにおける不安定性は積分誤差から生じると仮定する。
本研究では,有名なODEソルバ(Runge-Kutta など)がトレーニングを安定化できるかどうかを実験的に検証する。
論文 参考訳(メタデータ) (2020-10-28T15:23:49Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。