論文の概要: Potential-Guided Flow Matching for Vision-Language-Action Policy Improvement
- arxiv url: http://arxiv.org/abs/2606.04968v1
- Date: Wed, 03 Jun 2026 14:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.837058
- Title: Potential-Guided Flow Matching for Vision-Language-Action Policy Improvement
- Title(参考訳): ビジョンランゲージ・アクションポリシー改善のための電位ガイド型フローマッチング
- Authors: Yunpeng Mei, Jiakai He, Hongjie Cao, Chenyu Wang, Xiaowen Zhu, Yihan Zhou, Jiamin Wang, Chenbo Xin, Peng Cheng, Yuxuan Yang, Yijie Wang, Xinhu Zheng, Gao Huang, Jie Chen, Gang Wang,
- Abstract要約: 自己誘導型フローマッチングポリシであるForesightFlowを紹介した。
それぞれの生成されたアクションチャンクを、学習された成功可能性軌道で拡張する。
候補アクションをスコア付けし、外部の批評家なしで$K$の推論を可能にする。
- 参考スコア(独自算出の注目度): 27.695600755960736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language-action (VLA) policies are increasingly trained as conditional generative models over action chunks. Yet deployment produces mixed-quality experience-successful demonstrations, partial completions, recoverable mistakes, and failures-that is difficult to use with standard imitation. Full behavior cloning (BC) imitates failures, filtered BC discards useful sub-trajectories, and offline reinforcement learning adds a large critic. We introduce ForesightFlow, a self-guided flow-matching policy that augments each generated action chunk with a learned success-potential trajectory. The same flow proposes and scores candidate actions, enabling best-of-$K$ inference without an external critic. The key issue is that policy improvement and value calibration require different supervision: advantage weighting should emphasize high-quality actions, but applying the same weights to potential coordinates suppresses failure gradients and creates overconfident scores. We address this with decoupled advantage-weighted flow matching, applying exponentiated advantage weights only to action velocities while training potential velocities uniformly. We further derive a one-step boundary estimator for conditional flow matching, allowing advantage computation with a single stop-gradient forward pass. Across five BEHAVIOR-1K simulation tasks and five real-world bimanual tasks, ForesightFlow improves over imitation baselines, matches the strongest separate-critic baseline in simulation success, improves real-world success, and reduces training compute by $38\%$. Ablations show that decoupling prevents value hallucination, the one-step estimator preserves candidate-ranking fidelity, and self-guided sampling improves long-horizon execution.
- Abstract(参考訳): 大規模視覚言語アクション(VLA)ポリシーは、アクションチャンクに対する条件付き生成モデルとして、ますます訓練されている。
しかし、デプロイは、複雑な品質のエクスペリエンスの証明、部分的な完了、回復可能な失敗、そして失敗を生み出します。
BC(Full Behavior Cloning)は障害を模倣し、BCは有用なサブトラジェクトリを捨て、オフラインの強化学習は大きな批判を与える。
ForesightFlowは自己誘導型フローマッチングポリシーで、各生成されたアクションチャンクを学習された成功可能性軌跡で拡張する。
同じフローが候補アクションを提案してスコア付けし、外部の批評家なしで$K$のベストな推論を可能にします。
利点の重み付けは高品質な行動を強調するべきであるが、潜在的な座標に同じ重みを適用することで失敗の勾配が抑制され、過信のスコアが生成される。
本手法では,速度を均一にトレーニングしながら,速度を動作させるためにのみ,指数的優位性重み付けを適用して,疎結合の利便重みマッチングによりこの問題に対処する。
さらに、条件付きフローマッチングのための1ステップ境界推定器を導出し、1つの停止勾配フォワードパスによる有利な計算を可能にする。
ForesightFlowは、5つのBEHAVIOR-1Kシミュレーションタスクと5つの実世界のバイマニュアルタスクの中で、模倣ベースラインよりも改善され、シミュレーション成功における最強の分離批評家ベースラインと一致し、実世界の成功を向上し、トレーニング計算を38ドル%削減する。
アブレーションでは、デカップリングは価値幻覚を防ぎ、ワンステップ推定器は候補レベルの忠実さを保ち、自己誘導サンプリングは長距離実行を改善する。
関連論文リスト
- Preference-Calibrated Human-in-the-Loop Reinforcement Learning for Robotic Manipulation [40.17737666526493]
PACT(Preference-calibrated Actor-Critic Training framework)を提案する。
まず、人間の実演から学習し、信用補正のための最適部分を特定するプログレスモデルを設計する。
次に、選好ペアを構築して、同定された準最適セグメントのベルマン目標をペナルティ化する反ファクト的優位性を定義する。
論文 参考訳(メタデータ) (2026-06-02T17:38:25Z) - LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - CF-VLA: Efficient Coarse-to-Fine Action Generation for Vision-Language-Action Policies [26.36935074374452]
フローベースの視覚言語アクション(VLA)ポリシーは、アクション生成に対して強い表現力を提供するが、基本的な非効率性に悩まされる。
本稿では, アクション生成を粗大なステップに再構成する粗大な2段階の定式化であるCF-VLAを提案する。
提案手法は,低NFE(Number of Function Evaluations)体制下で高い効率性能のフロンティアを確立する。
論文 参考訳(メタデータ) (2026-04-27T15:51:40Z) - EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training [69.32453275232662]
学習した評論家は、利点のばらつきを減らさずに、取得した状態信号を超える推定ノイズを注入できることを示す。
本稿では,各トレーニングステップでバッチレベルのEVを監視し,批判ベースとバッチ平均の利点推定を適応的に切り替えるEVPOを提案する。
論文 参考訳(メタデータ) (2026-04-21T14:07:39Z) - What Does Flow Matching Bring To TD Learning? [28.717975688380488]
強化学習(RL)におけるスカラーQ値関数推定にフローマッチングが有効である
これらの結果から, 分布 RL ではその成功は説明されず, リターン分布を明示的にモデル化することで, 性能が低下することを示した。
我々は,この統合プロセスの各ステップにおける値の読み出しと高密度な速度管理に積分を用いることで,2つのメカニズムによるTD学習が向上すると主張している。
論文 参考訳(メタデータ) (2026-03-04T17:51:30Z) - Anchoring Values in Temporal and Group Dimensions for Flow Matching Model Alignment [61.80228667422234]
VGPOは時間次元とグループ次元の両方で値の推定を再定義する。
スパース端末の報酬を密度の高いプロセス認識値推定に変換する。
標準群正規化を絶対値によって強化された新しいプロセスに置き換え、安定した最適化信号を維持する。
論文 参考訳(メタデータ) (2025-12-13T16:31:26Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。