論文の概要: RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2602.01789v3
- Date: Thu, 05 Feb 2026 09:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.081136
- Title: RFS: Reinforcement Learning with Residual Flow Steering for Dexterous Manipulation
- Title(参考訳): RFS:デクサラスマニピュレーションのための残留流ステアリングによる強化学習
- Authors: Entong Su, Tyler Westenbroek, Anusha Nagabandi, Abhishek Gupta,
- Abstract要約: 残留フローステアリング(Residual Flow Steering、RFS)は、事前訓練された生成ポリシーを適用するためのデータ効率の強化学習フレームワークである。
RFSは、残留動作と潜時雑音分布を協調的に最適化することにより、事前訓練されたフローマッチングポリシーを操る。
シミュレーションと実世界の両方の設定において, RFS が効率よく微調整できることを示す。
- 参考スコア(独自算出の注目度): 7.500999283386335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning has emerged as an effective approach for bootstrapping sequential decision-making in robotics, achieving strong performance even in high-dimensional dexterous manipulation tasks. Recent behavior cloning methods further leverage expressive generative models, such as diffusion models and flow matching, to represent multimodal action distributions. However, policies pretrained in this manner often exhibit limited generalization and require additional fine-tuning to achieve robust performance at deployment time. Such adaptation must preserve the global exploration benefits of pretraining while enabling rapid correction of local execution errors. We propose Residual Flow Steering(RFS), a data-efficient reinforcement learning framework for adapting pretrained generative policies. RFS steers a pretrained flow-matching policy by jointly optimizing a residual action and a latent noise distribution, enabling complementary forms of exploration: local refinement through residual corrections and global exploration through latent-space modulation. This design allows efficient adaptation while retaining the expressive structure of the pretrained policy. We demonstrate the effectiveness of RFS on dexterous manipulation tasks, showing efficient fine-tuning in both simulation and real-world settings when adapting pretrained base policies. Project website:https://weirdlabuw.github.io/rfs.
- Abstract(参考訳): 模倣学習は、ロボット工学におけるシーケンシャルな意思決定をブートストラップするための効果的なアプローチとして現れ、高次元の巧妙な操作タスクにおいても高い性能を達成している。
近年の行動クローニング法は, 拡散モデルやフローマッチングなどの表現的生成モデルを利用して, マルチモーダルな行動分布を表現している。
しかし、この方法で事前訓練されたポリシーは、しばしば限定的な一般化を示し、デプロイメント時に堅牢なパフォーマンスを達成するために追加の微調整を必要とする。
このような適応は、局所的な実行エラーの迅速な修正を可能にしながら、事前訓練のグローバルな探索の利点を保たなければならない。
本研究では,事前学習した生成ポリシーを適応するためのデータ効率向上学習フレームワークであるResidual Flow Steering(RFS)を提案する。
RFSは、残留作用と潜時雑音分布を協調的に最適化し、残留補正による局所的改善と潜時空間変調による大域的探索の相補的な探索を可能にすることによって、事前訓練された流れマッチングポリシーを操る。
この設計は、事前訓練されたポリシーの表現的構造を維持しながら、効率的な適応を可能にする。
本研究では,事前学習した基本方針に適応する際のシミュレーションと実環境設定の両方において,RFSが効率よく微調整できることを示す。
プロジェクトウェブサイト:https://weirdlabuw.github.io/rfs
関連論文リスト
- Towards Long-Lived Robots: Continual Learning VLA Models via Reinforcement Fine-Tuning [34.29473529235131]
LifeLong-RFTは、VLAモデルの簡易かつ効果的な強化微細チューニング(RFT)戦略である。
LifeLong-RFTは、チャンキングレベルのオンライン強化学習と、提案した多次元プロセスリワード(MDPR)機構を統合する。
本手法は,SFTよりも平均成功率を22%向上させると同時に,トレーニングデータの20%のみを用いて,新たなタスクに効果的に適応する。
論文 参考訳(メタデータ) (2026-02-11T04:05:03Z) - DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training [94.568675548967]
実環境における訓練強化学習(RL)システムは、ノイズの多い監視とドメイン外の一般化が不十分なため、依然として困難である。
近年の分布RL法は、複数の量子点を持つ値をモデル化することでロバスト性を向上させるが、スカラーとして各量子点を独立に学習する。
DFPOは、時間ステップをまたいだ連続フローとして値をモデル化する、ロバストな分散RLフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T17:07:42Z) - Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control [18.618486126491334]
SAC(Soft Actor-Critic)がヒューマノイド・ロコモーション・ポリシーの大規模事前学習を確実に支援していることが判明した。
SAC-pretrained Policyは、モデルベースの手法を用いて、新しい環境やアウト・オブ・ディストリビューションタスクで微調整できる。
全体としては, 大規模シミュレーションのウォールクロック効率と, 微調整時のモデルベース学習のサンプル効率を両立させる。
論文 参考訳(メタデータ) (2026-01-29T07:43:24Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Fast and Stable Diffusion Planning through Variational Adaptive Weighting [3.745003761050674]
拡散モデルは、最近オフラインRLで有望であることが示されている。
これらの手法は、しばしば高い訓練コストと緩やかな収束に悩まされる。
本稿では,フローベース生成モデルに基づくオンライン推定のためのクローズドフォーム近似手法を提案する。
Maze2D タスクと Kitchen タスクの実験結果から,本手法は最大10倍のトレーニングステップで競争性能を達成できることが示された。
論文 参考訳(メタデータ) (2025-06-20T02:12:04Z) - A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [45.19254609437857]
オンライン強化学習(RL)は、複雑で安全クリティカルな領域で優れているが、サンプルの非効率性、トレーニング不安定性、限定的な解釈可能性に悩まされている。
データ属性は、モデルの振る舞いをトレーニングサンプルに遡る、原則化された方法を提供する。
本稿では、オンラインRLトレーニングのためのアルゴリズムである反復的影響ベースのフィルタリング(IIF)を提案し、ポリシー更新を洗練するための経験的フィルタリングを反復的に行う。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。