論文の概要: Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows
- arxiv url: http://arxiv.org/abs/2602.09580v1
- Date: Tue, 10 Feb 2026 09:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.473025
- Title: Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows
- Title(参考訳): アクション型批判と正規化フローによる実世界デキスタス政策の微調整
- Authors: Chenyu Yang, Denis Tarasov, Davide Liconti, Hehui Zheng, Robert K. Katzschmann,
- Abstract要約: 実世界のインタラクション予算の制限と多モードなアクション分布のため、厳密な操作ポリシーの現実世界の微調整は困難である。
正規化フロー(NF)を用いたサンプル効率の良いオフポリチック微調整フレームワークSOFT-FLOWを提案する。
これは、可能性に基づくマルチモーダルな生成ポリシーと、実際のロボットハードウェアにおけるチャンクレベルの価値学習を組み合わせた最初の実証である。
- 参考スコア(独自算出の注目度): 11.159970460746164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world fine-tuning of dexterous manipulation policies remains challenging due to limited real-world interaction budgets and highly multimodal action distributions. Diffusion-based policies, while expressive, do not permit conservative likelihood-based updates during fine-tuning because action probabilities are intractable. In contrast, conventional Gaussian policies collapse under multimodality, particularly when actions are executed in chunks, and standard per-step critics fail to align with chunked execution, leading to poor credit assignment. We present SOFT-FLOW, a sample-efficient off-policy fine-tuning framework with normalizing flow (NF) to address these challenges. The normalizing flow policy yields exact likelihoods for multimodal action chunks, allowing conservative, stable policy updates through likelihood regularization and thereby improving sample efficiency. An action-chunked critic evaluates entire action sequences, aligning value estimation with the policy's temporal structure and improving long-horizon credit assignment. To our knowledge, this is the first demonstration of a likelihood-based, multimodal generative policy combined with chunk-level value learning on real robotic hardware. We evaluate SOFT-FLOW on two challenging dexterous manipulation tasks in the real world: cutting tape with scissors retrieved from a case, and in-hand cube rotation with a palm-down grasp -- both of which require precise, dexterous control over long horizons. On these tasks, SOFT-FLOW achieves stable, sample-efficient adaptation where standard methods struggle.
- Abstract(参考訳): 現実世界の相互作用予算の制限と高度に多モーダルな行動分布のため、厳密な操作ポリシーの現実世界の微調整は依然として困難である。
拡散に基づくポリシーは、表現的ではあるが、アクション確率が引き起こされるため、微調整中に保守的な可能性に基づく更新を許可しない。
対照的に、従来のガウス政策は、特にアクションがチャンクで実行され、標準のステップ毎の批評家がチャンクされた実行と一致しない場合、マルチモダリティの下で崩壊する。
我々は,これらの課題に対処するために,NF(正規化フロー)を用いたサンプル効率の良いオフポリチック微調整フレームワークSOFT-FLOWを提案する。
正規化フローポリシーは、マルチモーダルなアクションチャンクに対して正確な確率を与え、確率正規化による保守的で安定したポリシー更新を可能にし、サンプル効率を向上させる。
アクションチャンク付き批評家は、アクションシーケンス全体を評価し、ポリシーの時間構造と価値推定を一致させ、長期クレジット割り当てを改善する。
われわれの知る限り、これは可能性に基づくマルチモーダルな生成ポリシーと、実際のロボットハードウェアにおけるチャンクレベルの価値学習を組み合わせた最初の実証である。
実世界の難易度の高い2つの操作課題について,ケースからハサミを回収したテープとヤシダウングリップを用いた手動立方体回転について検討した。
これらのタスクにおいて、SOFT-FLOWは標準手法が困難であるような安定したサンプル効率の適応を実現する。
関連論文リスト
- PolicyFlow: Policy Optimization with Continuous Normalizing Flow in Reinforcement Learning [6.836651088754774]
PolicyFlowは、CNFベースの強化学習アルゴリズムである。
表現力のあるCNFポリシーをPPOスタイルの目的と統合し、フルフローパスに沿って可能性評価を行う。
PolicyFlowは、簡単な経路に沿って速度場の変動を利用して重要度を近似し、訓練安定性を損なうことなく計算オーバーヘッドを削減する。
論文 参考訳(メタデータ) (2026-02-01T11:08:09Z) - Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - Decoupled Q-Chunking [63.864222078287575]
チャンクされた批評家は、個々のアクションではなく、短いアクションシーケンス("チャンク")の価値を見積もって、価値のバックアップをスピードアップします。
私たちの重要な洞察は、批判者のチャンクの長さをポリシーのチャンクの長さから切り離すことで、ポリシーがより短いアクションチャンクを乗り越えることを可能にすることです。
この設計は、オープンループのサブ最適化と長いアクションチャンクに対するアクションチャンクポリシーの学習の難しさを両立させながら、マルチステップ値伝搬の利点を保っている。
論文 参考訳(メタデータ) (2025-12-11T18:52:51Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Customize Multi-modal RAI Guardrails with Precedent-based predictions [55.63757336900865]
マルチモーダルガードレールは、ユーザ定義ポリシーに基づいて、画像コンテンツを効果的にフィルタリングする必要がある。
既存の微調整手法は、通常、事前に定義されたポリシーの条件予測を行う。
本稿では、入力に類似した先行データポイントの推論過程である「先行情報」に対する条件モデルの判断を提案する。
論文 参考訳(メタデータ) (2025-07-28T03:45:34Z) - How Generalizable Is My Behavior Cloning Policy? A Statistical Approach to Trustworthy Performance Evaluation [17.638831964639834]
行動クローニングポリシーは、人間のデモンストレーションから学ぶことで複雑なタスクを解決することに成功している。
本稿では,任意の環境下でのロボット性能について,より低バウンドなフレームワークを提案する。
実験では,シミュレーションとハードウェアの両方におけるビジュモータ操作のポリシーを評価する。
論文 参考訳(メタデータ) (2024-05-08T22:00:35Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。