論文の概要: Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior
- arxiv url: http://arxiv.org/abs/2604.01570v1
- Date: Thu, 02 Apr 2026 03:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.209442
- Title: Boosting Vision-Language-Action Finetuning with Feasible Action Neighborhood Prior
- Title(参考訳): ファシブル・アクション・アクション・ファインタニングによる視覚-言語-アクション・ファインタニング
- Authors: Haochen Niu, Kanyu Zhang, Shuyu Yin, Qinghai Guo, Peilin Liu, Fei Wen,
- Abstract要約: 現実世界のロボット操作では、州は一般的にほぼ等価な行動の地区を認める。
モデル出力分布をFANの幾何と整合させるFAN誘導正規化器を提案する。
- 参考スコア(独自算出の注目度): 20.92774693812594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world robotic manipulation, states typically admit a neighborhood of near-equivalent actions. That is, for each state, there exist a feasible action neighborhood (FAN) rather than a single correct action, within which motions yield indistinguishable progress. However, prevalent VLA training methodologies are directly inherited from linguistic settings and do not exploit the FAN property, thus leading to poor generalization and low sample efficiency. To address this limitation, we introduce a FAN-guided regularizer that shapes the model's output distribution to align with the geometry of FAN. Concretely, we introduce a Gaussian prior that promotes locally smooth and unimodal predictions around the preferred direction and magnitude. In extensive experiments across both reinforced finetuning (RFT) and supervised finetuning (SFT), our method achieves significant improvement in sample efficiency, and success rate in both in-distribution and out-of-distribution (OOD) scenarios. By aligning with the intrinsic action tolerance of physical manipulation, FAN-guided regularization provides a principled and practical method for sample-efficient, and generalizable VLA adaptation.
- Abstract(参考訳): 現実世界のロボット操作では、州は一般的にほぼ等価な行動の地区を認める。
すなわち、各状態に対して、単一の正しいアクションではなく実行可能なアクション地区(FAN)が存在し、運動が区別できない進歩をもたらす。
しかし、一般的なVLAトレーニング手法は言語的設定から直接受け継がれ、FAN特性を活用せず、一般化が不十分でサンプル効率が低くなる。
この制限に対処するために、モデル出力分布をFANの幾何学と整合させるFAN誘導正規化器を導入する。
具体的には,好みの方向と大きさの周りで局所的に滑らかで一方向の予測を促進するガウス先行法を提案する。
改良型微調整(RFT)と教師型微調整(SFT)の双方にわたる広範囲な実験において,本手法は試料効率の大幅な向上と,分布内および分布外の両方のシナリオにおける成功率を達成する。
物理操作の本質的な動作耐性と整合することにより、FAN誘導正規化は、サンプル効率、一般化可能なVLA適応の原則的で実用的な方法を提供する。
関連論文リスト
- LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models [48.68246945083386]
Likelihood-Free Policy Optimization (LFPO) は、ベクトル場フローの概念を離散トークン空間にマッピングするネイティブフレームワークである。
LFPOは幾何速度補正としてアライメントを定式化し、対照的な更新によって直接対流を最適化する。
実験によると、LFPOはコードと推論ベンチマークの最先端のベースラインを上回るだけでなく、拡散ステップの削減によって推論を約20%加速する。
論文 参考訳(メタデータ) (2026-03-02T07:42:55Z) - Training-Free Adaptation of Diffusion Models via Doob's $h$-Transform [37.05492050174751]
DOIT(Doob-Oriented Inference-time Transformation)は、トレーニング不要で計算効率のよい適応法である。
我々は,この輸送を実現するためにDoobの$h$-transformを利用し,拡散サンプリングプロセスに対する動的補正を誘導する。
本手法はサンプリング効率を保ちながら常に最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-18T05:44:19Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - A Distributional Approach to Controlled Text Generation [3.279201607581627]
予め訓練された言語モデル(LM)から制御されたテキスト生成に対処するための分布的アプローチを提案する。
このビューでは、単一の形式的なフレームワークで、ターゲット lm 上で "pointwise" と "distributional" の制約を定義することができる。
次に,我々のアプローチのユニークな特徴である分布制約に関する実験を行い,言語モデルにおけるバイアス問題に対する対策としての可能性を示す。
論文 参考訳(メタデータ) (2020-12-21T19:02:41Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。