論文の概要: Dense-Jump Flow Matching with Non-Uniform Time Scheduling for Robotic Policies: Mitigating Multi-Step Inference Degradation
- arxiv url: http://arxiv.org/abs/2509.13574v1
- Date: Tue, 16 Sep 2025 22:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.665124
- Title: Dense-Jump Flow Matching with Non-Uniform Time Scheduling for Robotic Policies: Mitigating Multi-Step Inference Degradation
- Title(参考訳): ロボットポリシーの非一様時間スケジューリングによるダンプ・ジャンプ流のマッチング:マルチステップ推論劣化の軽減
- Authors: Zidong Chen, Zihao Guo, Peng Wang, ThankGod Itua Egbe, Yan Lyu, Chenghao Qian,
- Abstract要約: フローマッチングは、ロボット工学で高品質な生成ポリシーを学ぶための競争フレームワークとして登場した。
推論における統合ステップの数の増加は、政策性能を反故意に、そして普遍的に低下させる。
本研究では,非一様時間スケジューリング(例えば,U字型)を訓練中に活用する新政策を提案する。
- 参考スコア(独自算出の注目度): 9.24627229208295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow matching has emerged as a competitive framework for learning high-quality generative policies in robotics; however, we find that generalisation arises and saturates early along the flow trajectory, in accordance with recent findings in the literature. We further observe that increasing the number of Euler integration steps during inference counter-intuitively and universally degrades policy performance. We attribute this to (i) additional, uniformly spaced integration steps oversample the late-time region, thereby constraining actions towards the training trajectories and reducing generalisation; and (ii) the learned velocity field becoming non-Lipschitz as integration time approaches 1, causing instability. To address these issues, we propose a novel policy that utilises non-uniform time scheduling (e.g., U-shaped) during training, which emphasises both early and late temporal stages to regularise policy training, and a dense-jump integration schedule at inference, which uses a single-step integration to replace the multi-step integration beyond a jump point, to avoid unstable areas around 1. Essentially, our policy is an efficient one-step learner that still pushes forward performance through multi-step integration, yielding up to 23.7% performance gains over state-of-the-art baselines across diverse robotic tasks.
- Abstract(参考訳): フローマッチングは,ロボット工学における高品質な生成ポリシーを学習するための競争的枠組みとして登場したが,近年の文献の知見に則って,フロー軌跡に沿って早期に一般化と飽和が生じることが判明した。
さらに、推論中のオイラー積分ステップの増大は、政策性能を反故意かつ普遍的に低下させる。
私たちはこれを当てはめます
一 遅滞領域を一括して一括統合し、訓練軌道に対する行動を制限し、一般化を減らし、
(2)積分時間が1に近づくと、学習速度場は非リプシッツとなる。
これらの課題に対処するため、政策訓練の早期・後期の段階と推論時の密ジャンプ統合スケジュールに重点を置くトレーニング中の非一様時間スケジューリング(例:U字型)を活用する新しいポリシーを提案する。
基本的に、我々の政策は効率的なワンステップ学習者であり、多段階統合によるパフォーマンス向上を推し進め、様々なロボットタスクにおける最先端のベースラインよりも最大で23.7%のパフォーマンス向上をもたらす。
関連論文リスト
- Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Stabilizing Policy Gradient Methods via Reward Profiling [8.888381917982024]
本稿では,任意のポリシー勾配アルゴリズムとシームレスに統合可能なユニバーサル報酬プロファイルフレームワークを提案する。
我々のプロファイリングアプローチは、より信頼性が高く効率的な政策学習への一般的な、理論的に根拠のある道を提供する。
論文 参考訳(メタデータ) (2025-11-20T18:35:51Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - STAIR: Addressing Stage Misalignment through Temporal-Aligned Preference Reinforcement Learning [16.149607057287092]
嗜好に基づく強化学習(PbRL)は、人間の嗜好から直接報酬を学習することで、複雑な報酬工学をバイパスする。
エージェントが連続的にサブタスクを実行するマルチステージタスクの有効性は、ステージミスアライメントによって制限される。
本稿では、まず時間的距離に基づいて段階近似を学習し、同じ段階における比較を優先するStage-AlIgned Reward Learning(STAIR)を提案する。
論文 参考訳(メタデータ) (2025-09-28T10:56:15Z) - Model-Agnostic AI Framework with Explicit Time Integration for Long-Term Fluid Dynamics Prediction [7.740582267221137]
本稿では,データ駆動AR予測に適した2段階微分Adams-Bashforth法の最初の実装について紹介する。
我々は、異なる将来のステップの重要性を動的に調整する3つの新しい適応重み付け戦略を開発した。
本フレームワークは,平均二乗誤差を0.125から0.002に削減する350のステップを正確に予測する。
論文 参考訳(メタデータ) (2024-12-07T14:02:57Z) - Data Augmentation Policy Search for Long-Term Forecasting [4.910937238451485]
TSAAという時系列自動拡張手法を導入する。
TSAAは2段階のプロセスを通じて関連する二段階最適化問題に取り組む。
安定していくつかの堅牢なベースラインを上回ります。
論文 参考訳(メタデータ) (2024-05-01T04:55:51Z) - Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。
MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T16:23:47Z) - Time-Efficient Reinforcement Learning with Stochastic Stateful Policies [20.545058017790428]
我々は,ステートフルな政策を,後者をグラデーションな内部状態カーネルとステートレスなポリシーに分解して訓練するための新しいアプローチを提案する。
我々は、ステートフルなポリシー勾配定理の異なるバージョンを導入し、一般的な強化学習アルゴリズムのステートフルな変種を簡単にインスタンス化できるようにする。
論文 参考訳(メタデータ) (2023-11-07T15:48:07Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Faster Last-iterate Convergence of Policy Optimization in Zero-Sum
Markov Games [63.60117916422867]
本稿では,対戦型マルチエージェントRLの最も基本的な設定,すなわち2プレーヤゼロサムマルコフゲームに焦点を当てる。
両エージェントから対称更新を施した単一ループポリシー最適化手法を提案し,この手法はエントロピー規則化楽観的乗算重み更新法(OMWU)によって更新される。
我々の収束結果は、最もよく知られた複雑性を改善し、競合するマルコフゲームにおけるポリシー最適化をよりよく理解する。
論文 参考訳(メタデータ) (2022-10-03T16:05:43Z) - Accelerated Gradient Flow: Risk, Stability, and Implicit Regularization [8.40147355108175]
本研究では,Nesterovの加速勾配法とPolyakの重ボール法により生じる反復率の統計的リスクについて検討した。
分析を連続的に実施することで、以前の作業よりもシャープなステートメントを実現できるのです。
論文 参考訳(メタデータ) (2022-01-20T17:23:43Z) - Accelerating Federated Edge Learning via Optimized Probabilistic Device
Scheduling [57.271494741212166]
本稿では,通信時間最小化問題を定式化し,解決する。
最適化されたポリシーは、トレーニングプロセスが進むにつれて、残りの通信ラウンドの抑制から、ラウンドごとのレイテンシの低減へと、徐々に優先順位を転換している。
提案手法の有効性は,自律運転における協調的3次元目標検出のユースケースを通じて実証される。
論文 参考訳(メタデータ) (2021-07-24T11:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。