論文の概要: VGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation
- arxiv url: http://arxiv.org/abs/2602.07399v1
- Date: Sat, 07 Feb 2026 06:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.603697
- Title: VGAS: Value-Guided Action-Chunk Selection for Few-Shot Vision-Language-Action Adaptation
- Title(参考訳): VGAS:Few-Shot Vision-Language-Action Adaptationのためのバリューガイドアクションチャンク選択
- Authors: Changhua Xu, Jie Lu, Junyu Xuan, En Yu,
- Abstract要約: Vision-Language-Action (VLA)モデルでは、マルチモーダル推論を物理的制御でブリッジするが、デモの少ない新しいタスクに適応することは信頼性が低い。
我々は,エフェジェネレーションの観点から少数ショットVLA適応を研究し,新しいフレームワーク textbfVGAS (textbfValue-textbfGuided textbfAction-chunk textbfSelection) を提案する。
セマンティックなアクションチャンクを識別するために、推論タイムのベスト・オブ・N$選択を実行する
- 参考スコア(独自算出の注目度): 22.508129824741555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision--Language--Action (VLA) models bridge multimodal reasoning with physical control, but adapting them to new tasks with scarce demonstrations remains unreliable. While fine-tuned VLA policies often produce semantically plausible trajectories, failures often arise from unresolved geometric ambiguities, where near-miss action candidates lead to divergent execution outcomes under limited supervision. We study few-shot VLA adaptation from a \emph{generation--selection} perspective and propose a novel framework \textbf{VGAS} (\textbf{V}alue-\textbf{G}uided \textbf{A}ction-chunk \textbf{S}election). It performs inference-time best-of-$N$ selection to identify action chunks that are both semantically faithful and geometrically precise. Specifically, \textbf{VGAS} employs a finetuned VLA as a high-recall proposal generator and introduces the \textrm{Q-Chunk-Former}, a geometrically grounded Transformer critic to resolve fine-grained geometric ambiguities. In addition, we propose \textit{Explicit Geometric Regularization} (\texttt{EGR}), which explicitly shapes a discriminative value landscape to preserve action ranking resolution among near-miss candidates while mitigating value instability under scarce supervision. Experiments and theoretical analysis demonstrate that \textbf{VGAS} consistently improves success rates and robustness under limited demonstrations and distribution shifts. Our code is available at https://github.com/Jyugo-15/VGAS.
- Abstract(参考訳): Vision-Language-Action (VLA)モデルでは、マルチモーダル推論を物理的制御でブリッジするが、デモの少ない新しいタスクに適応することは信頼性が低い。
微調整されたVLAポリシーはしばしば意味論的に妥当な軌跡を生成するが、失敗は未解決の幾何学的曖昧さから生じる。
本稿では,emph{gene--selection} の観点から少数ショット VLA 適応について検討し,新しいフレームワークである \textbf{VGAS} (\textbf{V}alue-\textbf{G}uided \textbf{A}ction-chunk \textbf{S}election) を提案する。
セマンティックに忠実で幾何学的に正確であるアクションチャンクを識別するために、推論タイムのベスト・オブ・N$選択を実行する。
具体的には、 \textbf{VGAS} は高精細な VLA を高精細な提案生成器として採用し、微粒な幾何学的曖昧さを解決するために幾何学的に接地されたトランスフォーマー批判である \textrm{Q-Chunk-Former} を導入している。
さらに,識別値のランドスケープを明示的に形成し,少数監督下での値不安定性を緩和しつつ,近距離候補間の行動ランク付けの解決を保ちながら,識別値のランドスケープを明確化する「textit{Explicit Geometric Regularization}」を提案する。
実験と理論解析により、 textbf{VGAS} は限定的な実演と分布シフトの下で、成功率と堅牢性を一貫して改善することを示した。
私たちのコードはhttps://github.com/Jyugo-15/VGAS.comで公開されています。
関連論文リスト
- Entropy-Guided k-Guard Sampling for Long-Horizon Autoregressive Video Generation [22.973340187143616]
トークン単位の分散に適応する手法として,Entropy-Guard k-gressive sampleを提案する。
ENkGは低エントロピー領域の適応トークン候補サイズを用いており、冗長ノイズを抑え、構造的整合性を維持するために少ない候補を用いる。
実験では、静的トップk/トップp戦略と比較して知覚品質と構造安定性が一貫した改善を示した。
論文 参考訳(メタデータ) (2026-01-27T11:19:53Z) - Geometrically-Constrained Agent for Spatial Reasoning [53.93718394870856]
視覚言語モデルは空間的推論において基本的な意味-幾何学的ギャップを示す。
現在のパラダイムは、このギャップを埋めることに失敗します。
本稿では,形式的タスク制約を導入することにより,このギャップを解消する学習自由エージェントパラダイムを提案する。
論文 参考訳(メタデータ) (2025-11-27T17:50:37Z) - On Geometric Structures for Policy Parameterization in Continuous Control [7.056222499095849]
本稿では,単位多様体上での演算による構造的利点を保った,計算効率の良いアクション生成パラダイムを提案する。
本手法は,動作を決定論的方向ベクトルと学習可能な濃度に分解し,目標方向と一様雑音との効率性を実現する。
実証的に、我々の手法は標準的な連続制御ベンチマークで最先端の手法と一致するか超えている。
論文 参考訳(メタデータ) (2025-11-11T13:32:38Z) - TRUST: Leveraging Text Robustness for Unsupervised Domain Adaptation [9.906359339999039]
視覚モデルの適応を導くために,言語モダリティの堅牢性を活用する新しいUDAアプローチを導入する。
視覚と言語の特徴空間を整合させるマルチモーダルなソフトコントラスト学習損失を提案する。
我々のアプローチは従来の手法よりも優れており、従来の(DomainNet)ドメインシフトと複雑な(GeoNet)ドメインシフトに新しい最先端の設定を施しています。
論文 参考訳(メタデータ) (2025-08-08T16:51:44Z) - VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought [51.43082554363725]
textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
論文 参考訳(メタデータ) (2025-05-22T03:50:13Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - ADDMU: Detection of Far-Boundary Adversarial Examples with Data and
Model Uncertainty Estimation [125.52743832477404]
AED(Adversarial Examples Detection)は、敵攻撃に対する重要な防御技術である。
本手法は, 正逆検出とFB逆検出の2種類の不確実性推定を組み合わせた新しい手法である textbfADDMU を提案する。
提案手法は,各シナリオにおいて,従来の手法よりも3.6と6.0のEmphAUC点が優れていた。
論文 参考訳(メタデータ) (2022-10-22T09:11:12Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。