論文の概要: Guided Streaming Stochastic Interpolant Policy
- arxiv url: http://arxiv.org/abs/2605.10051v1
- Date: Mon, 11 May 2026 06:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.571862
- Title: Guided Streaming Stochastic Interpolant Policy
- Title(参考訳): 誘導ストリーミング確率補間ポリシー
- Authors: Puming Jiang, Meiyi Wang, Kelvin Lin, Ce Hao, Harold Soh,
- Abstract要約: 推論時指導は, 再現性のない動的目標に向けて, 生成ロボットのポリシーを操るのに不可欠である。
本研究では,動的非構造型補間器(SI)の最適ガイダンス項を導出する。
このフレームワークをストリーム補間ポリシー(SSIP)によるリアルタイム制御に適用する。
- 参考スコア(独自算出の注目度): 8.673777984856075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time guidance is essential for steering generative robot policies toward dynamic objectives without retraining, yet existing methods are largely confined to chunk-based architectures that exhibit high latency and lack the reactivity needed for test-time preference alignment or obstacle avoidance. In this work, we formally derive the optimal guidance term for Stochastic Interpolants (SI) by analyzing the value function's time evolution via the Backward Kolmogorov Equation, establishing a modified drift that theoretically guarantees sampling from a target distribution. We apply this framework to real-time control through the Streaming Stochastic Interpolant Policy (SSIP), which generalizes the deterministic Streaming Flow Policy (SFP). Unifying this guidance law with the streaming architecture enables fast and reactive control. To support diverse deployment needs, we propose two complementary mechanisms: training-free Stochastic Trajectory Ensemble Guidance (STEG) that computes gradients on-the-fly for zero-shot adaptation, and training-based Conditional Critic Guidance (CCG) for amortized inference. Empirical evaluations demonstrate that our guided streaming approach significantly outperforms conventional chunk-based policies in reactivity and provides superior, physically valid guidance for dynamic, unstructured environments.
- Abstract(参考訳): 推論時ガイダンスは,自動生成ロボットポリシーをトレーニングせずに動的対象に向けて操る上で不可欠であるが,既存の手法は,高い遅延時間を示すチャンクベースアーキテクチャに限られており,テスト時間設定アライメントや障害物回避に必要となる反応性が欠如している。
本研究では,後方コルモゴロフ方程式を用いて値関数の時間発展を解析し,理論的に対象分布からのサンプリングを保証した修正ドリフトを確立することにより,確率補間器(SI)の最適誘導項を公式に導出する。
本研究では,決定論的ストリームフローポリシー(SFP)を一般化するストリーム確率補間ポリシー(SSIP)を通じて,リアルタイム制御にこの枠組みを適用した。
このガイダンス法則をストリーミングアーキテクチャと統一することで、高速かつリアクティブな制御が可能になる。
多様な展開ニーズに対応するために,ゼロショット適応のための勾配を演算するトレーニングフリーな確率軌道アンサンブルガイダンス (STEG) と,償却推論のためのトレーニングベース条件批判ガイダンス (CCG) の2つの補完メカニズムを提案する。
経験的評価により,本手法は従来のチャンク方式の反応特性を著しく上回り,動的で非構造的な環境に対して優れた物理的ガイダンスを提供する。
関連論文リスト
- Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning [5.309590159815129]
我々は、新しいエンドツーエンド有限ホライズン・ワッサーシュタイン DRC フレームワークを提案する。
これは、異方性ワッサースタインメトリクスの学習と下流制御タスクを閉ループ方式で統合する。
提案手法は,最先端手法と比較して,クローズドループ性能とロバスト性に優れることを示す。
論文 参考訳(メタデータ) (2025-10-11T13:40:49Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling [9.936731043466699]
多段階アクションサンプリングプロセスの勾配が原因で,非政治強化学習による表現型フローベース政策の訓練が不安定であることが知られている。
フローロールアウトはリカレント計算に代数的に等価であり、RNNと同様の消滅や爆発的な勾配に影響を受けやすい。
我々は,これらのポリシーのエンドツーエンドのトレーニングを容易にする,ノイズ強化ロールアウトによって実現された実用的なSACベースのアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-09-30T04:21:20Z) - Extending Group Relative Policy Optimization to Continuous Control: A Theoretical Framework for Robotic Reinforcement Learning [0.0]
グループ相対政策最適化(GRPO)は、グループベースの優位性推定を通じて値関数依存を排除し、離散的な行動空間において有望であることを示す。
本稿では,GRPOを連続制御環境に拡張し,高次元行動空間における課題,スパース報酬,時間的ダイナミクスに対処する理論的枠組みを提案する。
論文 参考訳(メタデータ) (2025-07-25T05:25:40Z) - Relative Entropy Pathwise Policy Optimization [66.03329137921949]
そこで本稿では,Q値モデルをオンライントラジェクトリから純粋に訓練するオンラインアルゴリズムを提案する。
安定トレーニングのための制約付き更新と探索のためのポリシを組み合わせる方法を示し、価値関数学習を安定化させる重要なアーキテクチャコンポーネントを評価する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Logarithmic Smoothing for Adaptive PAC-Bayesian Off-Policy Learning [4.48890356952206]
オフ政治学習は、ログ化された相互作用から最適なポリシーを学ぶための主要なフレームワークとなる。
我々はこのフレームワークをオンラインPAC-ベイジアン理論のツールを用いて適応シナリオに拡張する。
論文 参考訳(メタデータ) (2025-06-12T12:54:09Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。