論文の概要: Lagrangian Perturbation Diffusion Steering: Latent Reinforcement Learning for Generative Policies
- arxiv url: http://arxiv.org/abs/2606.01151v1
- Date: Sun, 31 May 2026 10:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.282576
- Title: Lagrangian Perturbation Diffusion Steering: Latent Reinforcement Learning for Generative Policies
- Title(参考訳): ラグランジアン摂動拡散ステアリング:ジェネレーティブ・ポリシーのための潜在強化学習
- Authors: Hikmet Simsir, Ozgur S. Oguz,
- Abstract要約: 復号化前にコンパクトな雑音空間摂動を学習することにより、凍結生成ポリシーを改善する軽量適応法を提案する。
RoboMimic操作、OpenAI Gymロコモーション、Adroit dexterous操作ベンチマークの他、LP-DSはサンプル効率、成功、リターンを改善しながら、制約のないノイズ空間ステアリングよりも高いアクション空間エントロピーを維持している。
- 参考スコア(独自算出の注目度): 5.170807667319543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Behavior cloning with high-capacity generative policies achieves strong imitation performance, but is often limited by demonstration coverage and distribution shift. Direct reinforcement learning fine-tuning can improve performance, but updating large action decoders is frequently unstable and sample inefficient. We propose Lagrangian Perturbation Diffusion Steering (LP-DS), a lightweight adaptation method that improves a frozen generative policy by learning a compact noise-space perturbation before decoding. LP-DS optimizes this perturbation with a Lagrangian trust-region objective, improving downstream value while constraining deviation from the latent prior. Across RoboMimic manipulation, OpenAI Gym locomotion, and Adroit dexterous manipulation benchmarks, LP-DS improves sample efficiency, success, and return while maintaining higher action-space entropy than unconstrained noise-space steering, with return improvements of up to 25% over prior baselines. Additional evaluations with flow-matching backbones, a large vision-language-action model, and physical Franka deployment show that LP-DS is not limited to compact diffusion policies or simulated benchmarks. Project page: https://sites.google.com/view/lp-ds/home.
- Abstract(参考訳): 高容量生成ポリシーによる行動クローニングは、強い模倣性能を達成するが、しばしば実演カバレッジと分配シフトによって制限される。
直接強化学習の微調整により性能が向上するが、大きなアクションデコーダの更新はしばしば不安定であり、サンプル非効率である。
ラグランジアン摂動拡散ステアリング(Lagrangian Perturbation Diffusion Steering, LP-DS)を提案する。
LP-DSはこの摂動をラグランジュの信頼領域目標で最適化し、下流の値を改善し、潜伏した先行からのずれを抑える。
RoboMimic操作、OpenAI Gymロコモーション、Adroit dexterous操作ベンチマークの他、LP-DSはサンプル効率、成功、リターンを改善しながら、制約のないノイズ空間ステアリングよりも高いアクション空間エントロピーを維持し、リターンは以前のベースラインよりも最大25%改善されている。
フローマッチングバックボーン、大きな視覚-言語-アクションモデル、物理フランカ展開によるさらなる評価は、LP-DSがコンパクトな拡散ポリシーやシミュレーションベンチマークに限定されていないことを示している。
プロジェクトページ: https://sites.google.com/view/lp-ds/home
関連論文リスト
- Power Reinforcement Post-Training of Text-to-Image Models with Super-Linear Advantage Shaping [66.25536973294726]
テキスト・トゥ・イメージ(T2I)モデルのポストトレーニング手法はハッキングに報いる傾向がある。
SLAS(Super-Linear Advantage Shaping)は、地方政策の分野を再考する。
SLASは、DanceGRPOベースラインを複数のバックボーンとベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-11T17:59:25Z) - V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think [90.69263509098948]
本稿では,ELBOをベースとしたサロゲートとグループ相対ポリシー最適化アルゴリズムを統合した変分GRPOを提案する。
V-GRPOはテキストと画像の合成において最先端のパフォーマンスを実現し、MixGRPOよりも2倍のスピードアップ、DiffusionNFTより3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-04-25T17:03:21Z) - Proximal Action Replacement for Behavior Cloning Actor-Critic in Offline Reinforcement Learning [22.17044827069627]
安定なアクターによって生成される高価値なアクションに置き換える,プラグアンドプレイのトレーニングサンプル置換器を提案する。
実験の結果、PARはパフォーマンスを継続的に改善し、基礎的なTD3+BCと組み合わせることで最先端にアプローチすることがわかった。
論文 参考訳(メタデータ) (2026-02-07T08:44:27Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation [7.500999283386335]
残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
論文 参考訳(メタデータ) (2026-02-02T08:11:57Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - ADP-VRSGP: Decentralized Learning with Adaptive Differential Privacy via Variance-Reduced Stochastic Gradient Push [24.62800551742178]
本稿では分散誘導勾配プッシュによる適応微分プライバシーを用いた分散学習という新しい手法を提案する。
この方法は、段階的に遅延するスケジュールを用いて、ノイズ分散と学習率の両方を動的に調整する。
ADP-VRSGPは、適切な学習速度で堅牢な収束を実現し、トレーニングの安定性と速度を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-10-23T03:14:59Z) - LARGO: Low-Rank Regulated Gradient Projection for Robust Parameter Efficient Fine-Tuning [39.56217775141507]
Low-rAnk Regulated Gradient Projection (LARGO)アルゴリズムは、動的制約を低ランク適応法に統合する。
LARGOは、ドメイン内および配布外のシナリオで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-14T08:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。