Fugu-MT 論文翻訳(概要): Dynamic Update-to-Data Ratio: Minimizing World Model Overfitting

論文の概要: Dynamic Update-to-Data Ratio: Minimizing World Model Overfitting

arxiv url: http://arxiv.org/abs/2303.10144v1
Date: Fri, 17 Mar 2023 17:29:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-20 13:40:42.093329
Title: Dynamic Update-to-Data Ratio: Minimizing World Model Overfitting
Title（参考訳）: Dynamic Update-to-Data Ratio: World Model Overfittingの最小化
Authors: Nicolai Dorka, Tim Welschehold, Wolfram Burgard
Abstract要約: 過度および過度に適合する検出に基づいて,トレーニング中のデータ更新率(UTD)を動的に調整する新しい手法を提案する。本稿では,最新のモデルベース強化学習アルゴリズムであるDreamerV2に適用し,DeepMind Control SuiteとAtari 100$kベンチマークで評価する。
参考スコア（独自算出の注目度）: 25.93711502488151
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Early stopping based on the validation set performance is a popular approach to find the right balance between under- and overfitting in the context of supervised learning. However, in reinforcement learning, even for supervised sub-problems such as world model learning, early stopping is not applicable as the dataset is continually evolving. As a solution, we propose a new general method that dynamically adjusts the update to data (UTD) ratio during training based on under- and overfitting detection on a small subset of the continuously collected experience not used for training. We apply our method to DreamerV2, a state-of-the-art model-based reinforcement learning algorithm, and evaluate it on the DeepMind Control Suite and the Atari $100$k benchmark. The results demonstrate that one can better balance under- and overestimation by adjusting the UTD ratio with our approach compared to the default setting in DreamerV2 and that it is competitive with an extensive hyperparameter search which is not feasible for many applications. Our method eliminates the need to set the UTD hyperparameter by hand and even leads to a higher robustness with regard to other learning-related hyperparameters further reducing the amount of necessary tuning.
Abstract（参考訳）: 検証セットのパフォーマンスに基づく早期停止は、教師あり学習のコンテキストにおいて、下位と過剰のバランスを見つけるための一般的なアプローチである。しかしながら、強化学習では、世界モデル学習のような教師付きサブプロブレムでも、データセットが継続的に進化しているため、早期停止は適用されない。そこで本研究では,トレーニングに使用しない連続的な経験の少ない部分集合に対する過度および過度な検出に基づいて,トレーニング中のデータ更新率(UTD)を動的に調整する手法を提案する。本稿では,最新のモデルベース強化学習アルゴリズムであるDreamerV2に適用し,DeepMind Control SuiteとAtari 100$kベンチマークで評価する。その結果、DreamerV2のデフォルト設定と比較してUTD比を調整することで、過小評価と過大評価のバランスが良くなり、多くのアプリケーションでは実現不可能な広範なハイパーパラメータ検索と競合することを示した。本手法は,UTDハイパーパラメータを手動で設定する必要をなくし,さらに必要なチューニング量を減らすことで,学習関連ハイパーパラメータに対して高いロバスト性を実現する。

関連論文リスト

Sculpting Subspaces: Constrained Full Fine-Tuning in LLMs for Continual Learning [19.27175827358111]
大規模言語モデル(LLM)における継続的な学習は破滅的な忘れがちである。適応特異値分解(SVD)を利用した連続的完全微調整手法を提案する。我々は,Encoder-decoder (T5-Large) モデルとdecoder-only (LLaMA-2 7B) モデルの両方を用いて,標準連続学習ベンチマークを広範囲に評価した。
論文参考訳（メタデータ） (2025-04-09T17:59:42Z)
LoRE-Merging: Exploring Low-Rank Estimation For Large Language Model Merging [10.33844295243509]
基本モデルであるtextscLoRE-Merging へのアクセスを必要とせず,タスクベクトルの低ランク推定に基づくモデルマージのための統一フレームワークを提案する。我々のアプローチは、細調整されたモデルからのタスクベクトルは、しばしば支配的な特異値の限られた数しか示さず、低ランク推定が干渉しにくくなるという観察に動機づけられている。
論文参考訳（メタデータ） (2025-02-15T10:18:46Z)
Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization [15.605124749589946]
CrossQは,更新データ(UTD)比が1。より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。提案手法はUTD比の増大とともに確実にスケールし,25の難易度連続制御タスクにまたがる競争性能を達成する。
論文参考訳（メタデータ） (2025-02-11T12:55:32Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Dissecting Deep RL with High Update Ratios: Combatting Value Divergence [21.282292112642747]
ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
論文参考訳（メタデータ） (2024-03-09T19:56:40Z)
Deep autoregressive density nets vs neural ensembles for model-based offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。 D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文参考訳（メタデータ） (2024-02-05T10:18:15Z)
Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文参考訳（メタデータ） (2023-06-26T17:53:05Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
Predictive Experience Replay for Continual Visual Control and Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Adversarial Learning Networks: Source-free Unsupervised Domain Incremental Learning [0.0]
非定常環境では、DNNモデルの更新にはパラメータの再トレーニングやモデル微調整が必要である。 DNN分類モデルを更新するための教師なしソースフリー手法を提案する。既存の手法とは異なり,本手法では過去のトレーニングデータを格納することなく,非定常的なソースとターゲットタスクに対して段階的にDNNモデルを更新することができる。
論文参考訳（メタデータ） (2023-01-28T02:16:13Z)
Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文参考訳（メタデータ） (2021-06-06T00:04:49Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。