論文の概要: Dreaming Smoothly and Sample Efficiently with Gradient Penalized Latent Dynamics
- arxiv url: http://arxiv.org/abs/2605.23089v1
- Date: Thu, 21 May 2026 22:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.127232
- Title: Dreaming Smoothly and Sample Efficiently with Gradient Penalized Latent Dynamics
- Title(参考訳): グレードエントペナルトダイナミクスによるスムーズな夢とサンプル
- Authors: Romil V. Sonigra, P. R. Kumar,
- Abstract要約: 本稿では, 局所的スムーズな遷移学習を促進するために, 後部潜伏分布に行ワイドジャコビアンペナルティを適用するDreamerV3の潜伏動的正規化器を提案する。
このペナルティは、離散埋め込み状態 MDP における遷移則の有限差分平滑化の連続ラテントアナログとして解釈できることを示す。
- 参考スコア(独自算出の注目度): 5.403565630183649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning improves sample efficiency by learning a world model. However, existing latent world models such as DreamerV3 do not explicitly enforce local smoothness in their learned transition dynamics, leaving a useful inductive bias for transition dynamics learning unexploited. We propose GPLD, a gradient-penalized latent dynamics regularizer for DreamerV3 that applies a row-wise Jacobian penalty to the posterior latent distribution to encourage locally smooth transition learning. We show that this penalty can be interpreted as the continuous-latent analog of finite-difference smoothing of transition laws in discrete embedded-state MDPs, and estimate it efficiently using Hutchinson-style stochastic probes. Empirically, across DeepMind Control proprioceptive tasks, GPLD improves aggregate sample efficiency, with particularly strong gains on higher-complexity locomotion environments. On more challenging quadruped tasks, GPLD reaches high-return behavior earlier and exhibits more consistent late-stage learning over longer horizons. Explicit local smoothness regularization is a simple and effective way to improve latent world models for smooth continuous control environments. Code for GPLD is available at github.com/romils9/gpld-mbrl .
- Abstract(参考訳): モデルに基づく強化学習は、世界モデルを学ぶことでサンプル効率を向上させる。
しかしながら、DreamerV3のような既存の潜在世界モデルは、学習された遷移力学において局所的な滑らかさを明示的に強制せず、遷移力学の学習に有用な帰納バイアスを残している。
本研究では,局所的スムーズな遷移学習を促進するために,遅延分布に行ワイドジャコビアンペナルティを適用するDreamerV3用勾配ペンタライズ潜在力学正規化器であるGPLDを提案する。
本研究では, このペナルティを, 離散埋込状態 MDP における遷移則の有限差平滑化の連続的アナログとして解釈し, ハッチンソン型確率プローブを用いて効率的に推定できることを示す。
実証的には、DeepMind Controlのプロプリセプティブタスク全体で、GPLDは、特に複雑度の高いロコモーション環境において、集合的なサンプル効率を改善する。
より困難な4つのタスクにおいて、GPLDはより早くハイリターン動作に達し、より長い地平線よりもより一貫性のある後期学習を示す。
局所滑らか度正規化は、スムーズな連続制御環境のための潜在世界モデルを改善するための単純かつ効果的な方法である。
GPLDのコードはgithub.com/romils9/gpld-mbrlで入手できる。
関連論文リスト
- Learning Generative Dynamics with Soft Law Constraints: A McKean-Vlasov FBSDE Approach [36.94429692322632]
終端および中間分布観測からダイナミクスを学習するための生成フレームワークを提案する。
この方法は、ソフトエネルギーの制約によって終端法則と時準法則が強制されるマッキーン・ブラソフ制御問題として生成を定式化する。
実験により、ソフトな境界法則の制約は、中間分布が人間の運動の観察された進化に従うコヒーレントな軌跡を生じさせることが示されている。
論文 参考訳(メタデータ) (2026-05-09T13:00:37Z) - Smooth Operator: Smooth Verifiable Reward Activates Spatial Reasoning Ability of Vision-Language Model [18.526821056010384]
視覚言語モデル(VLM)は、3次元シーン理解のための正確な数値予測を実現する上で重要なボトルネックに直面している。
伝統的な強化学習アプローチは、主に相対的なランクに基づいており、しばしば深刻な報酬の分散と勾配不安定に悩まされる。
本稿では,Smooth Numerical Reward Activation (SNRA)演算子とAbsolute-Preserving GRPOフレームワークを紹介する。
論文 参考訳(メタデータ) (2026-01-12T16:26:42Z) - Compensating Distribution Drifts in Class-incremental Learning of Pre-trained Vision Transformers [27.14203097630326]
本稿では、遅延空間遷移演算子を導入し、ドリフト補償を用いた逐次学習を提案する。
SLDCは、ドリフトの影響を軽減するために、タスク間で機能の分散を調整することを目的としている。
標準CILベンチマークの実験では、SLDCはSeqFTの性能を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-11-13T03:40:54Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - On discretisation drift and smoothness regularisation in neural network
training [0.0]
私たちは、最適化とモデル正規化に焦点をあてて、ディープラーニングの理解を改善するためのステップを作ることを目標としています。
まず、最も一般的なディープラーニング最適化アルゴリズムに基づいて、離散時間アルゴリズムである勾配降下(GD)を調査することから始める。
NGFと異なり、これらの新たな流れは、教師付き学習や2人のプレイヤゲームで観察されるトレーニング不安定性など、GDの学習速度固有の振る舞いを記述するのに使用できる。
そして、新しい学習率スケジュールと正則性を構築することにより、連続時間からの洞察を不安定なGDダイナミクスの緩和戦略に変換する。
論文 参考訳(メタデータ) (2023-10-21T15:21:36Z) - Learning Globally Smooth Functions on Manifolds [94.22412028413102]
スムーズな関数の学習は、線形モデルやカーネルモデルなどの単純なケースを除いて、一般的に難しい。
本研究は,半無限制約学習と多様体正規化の技法を組み合わせることで,これらの障害を克服することを提案する。
軽度条件下では、この手法は解のリプシッツ定数を推定し、副生成物として大域的に滑らかな解を学ぶ。
論文 参考訳(メタデータ) (2022-10-01T15:45:35Z) - Continuous Transition: Improving Sample Efficiency for Continuous
Control Problems via MixUp [119.69304125647785]
本稿では,連続的遷移を構築するための簡潔かつ強力な手法を提案する。
具体的には、連続的な遷移を線形に補間することにより、トレーニングのための新しい遷移を合成することを提案する。
また, 建設過程を自動案内する判別器を開発した。
論文 参考訳(メタデータ) (2020-11-30T01:20:23Z) - Improving Sampling Accuracy of Stochastic Gradient MCMC Methods via
Non-uniform Subsampling of Gradients [54.90670513852325]
サンプリング精度を向上させるための一様でないサブサンプリング手法を提案する。
EWSGは、一様勾配MCMC法がバッチ勾配MCMC法の統計的挙動を模倣するように設計されている。
EWSGの実践的な実装では、データインデックス上のMetropolis-Hastingsチェーンを介して、一様でないサブサンプリングを効率的に行う。
論文 参考訳(メタデータ) (2020-02-20T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。