論文の概要: Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking
- arxiv url: http://arxiv.org/abs/2602.24143v1
- Date: Fri, 27 Feb 2026 16:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.770653
- Title: Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking
- Title(参考訳): ロバストスキル, 脆いグラウンド:多目的ピッキングによる視覚言語行動政策における制限付き一般化の診断
- Authors: David Emukpere, Romain Deffayet, Jean-Michel Renders,
- Abstract要約: 視覚言語アクション(VLA)ポリシーは、比較的少数のデモで強力な操作ベンチマーク性能を報告している。
本研究は, オブジェクト配置のばらつきを, 作業空間のランダム化まで徐々に増大させる多目的ピッキング研究である。
SmolVLAや$_0.5$といった代表的VLAポリシでは、操作プリミティブの実行は、命令条件のタスク成功よりもかなり信頼性が高いことが分かりました。
- 参考スコア(独自算出の注目度): 6.713814849613683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language action (VLA) policies often report strong manipulation benchmark performance with relatively few demonstrations, but it remains unclear whether this reflects robust language-to-object grounding or reliance on object--location correlations that do not transfer beyond the training distribution. We present a controlled multi-object picking study that progressively increases object placement variability up to full workspace randomization and evaluates held-out object--location pairings that break familiar associations without increasing spatial difficulty. Across these stress tests and data scaling, we find that for representative VLA policies, including SmolVLA and $π_{0.5}$, execution of the manipulation primitive remains substantially more reliable than instruction-conditioned task success in harder regimes, suggesting that manipulation skill acquisition is decoupled from instruction following. We recommend augmenting manipulation benchmarks with task ladders and decomposed metrics that separately measure primitive execution and instruction-conditioned success to better diagnose instruction-grounded generalization.
- Abstract(参考訳): 視覚言語アクション(VLA)ポリシーは、比較的少数の実演で強力な操作ベンチマーク性能を報告していることが多いが、それが頑健な言語間接地や、トレーニング分布を超えて移動しないオブジェクト位置相関に依存しているかどうかは不明だ。
本研究では, 空間的困難を増大させることなく, 親しみやすい関連性を損なうことなく, オブジェクト配置のバラツキを全ワークスペースランダム化まで徐々に増加させ, 保持するオブジェクト配置ペアリングの評価を行う。
これらのストレステストとデータスケーリング全体で、SmolVLA や $π_{0.5}$ などの代表的 VLA ポリシに対して、操作プリミティブの実行は、厳しい状況下での命令条件付きタスクの成功よりもかなり信頼性が保たれており、操作スキル獲得が命令の処理から切り離されていることが示唆されている。
我々は,プリミティブ実行と命令条件付き成功を別々に測定して,命令基底の一般化をよりよく診断する,タスクはしごと分解メトリクスによる操作ベンチマークの強化を推奨する。
関連論文リスト
- Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering [10.01278648231868]
ポリシーステアリングは、デプロイ時にロボットの振る舞いを適用する新しい方法です。
VLM(Vision-Language Models)は、それらの推論能力のために、汎用的な検証を約束する。
セマンティックタスクの不確実性と低レベルのアクション実現可能性について共同で理由づけるフレームワークである不確実性対応型ポリシーステアリング(UPS)を提案する。
論文 参考訳(メタデータ) (2026-02-25T23:23:22Z) - Generalizing from References using a Multi-Task Reference and Goal-Driven RL Framework [12.131501436717969]
本研究では,人間の動作からヒューマノイドの動作を学習するためのマルチタスク強化学習フレームワークを提案する。
単一の目標条件付きポリシーは、同じ観測空間と行動空間を共有する2つのタスクで共同で訓練される。
これらの目的を共通の定式化内で協調最適化することにより、このポリシーは、密集した基準監督から構造化された人間のような運動スキルを取得する。
論文 参考訳(メタデータ) (2026-02-23T21:25:06Z) - Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment [58.93227458806748]
CoVer-VLAは、訓練された検証器を用いた階層的なテスト時間検証パイプラインである。
我々のフレームワークはビジョン・ランゲージ・モデルから多種多様な説明文をプリコンプリートする。
各命令に対して繰り返しアクション候補を生成し、検証器を使用して最適なハイレベルプロンプトと低レベルアクションチャンクを選択する。
論文 参考訳(メタデータ) (2026-02-12T18:59:59Z) - LIBERO-X: Robustness Litmus for Vision-Language-Action Models [32.29541801424534]
この研究は、評価とデータの観点からVLAベンチマークを体系的に再考する。
LIBERO-Xは階層的評価プロトコルを特徴とするベンチマークで,3つのコア機能を対象とした進行難度レベルを示す。
代表的なVLAモデルを用いた実験では、累積摂動下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-06T09:59:12Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - FOSSIL: Harnessing Feedback on Suboptimal Samples for Data-Efficient Generalisation with Imitation Learning for Embodied Vision-and-Language Tasks [45.65159253753118]
この研究は、模倣学習で訓練されたエージェントが最適と準最適の両方から堅牢な表現を学習する方法を探求する。
入力シーケンスの一部として言語フィードバックの埋め込みをTransformerベースのポリシーに組み込む。
独自のBabyAI-XGen環境における視覚・言語タスクの具体化について,本手法を検証した。
論文 参考訳(メタデータ) (2025-10-13T11:55:21Z) - Do What? Teaching Vision-Language-Action Models to Reject the Impossible [53.40183895299108]
VLA(Vision-Language-Action)モデルは、さまざまなロボットタスクにおいて強力なパフォーマンスを示している。
Instruct-Verify-and-Act(IVA)を提案する。
実験の結果,IVAはベースラインよりも97.56%の精度で虚偽の前提検出精度を向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-22T10:54:33Z) - COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping [56.907940167333656]
集積ロボットグルーピングは、表面衝突などの環境制約により、所望のグルーピングポーズが運動的に不可能な場所である。
従来のロボット操作アプローチは、人間が一般的に使用する非包括的または双対的戦略の複雑さに苦しむ。
本稿では,2つの協調ポリシーを活用する学習ベースアプローチであるCOMBO-Grasp(Constraint-based Manipulation for Bimanual Occluded Grasping)を紹介する。
論文 参考訳(メタデータ) (2025-02-12T01:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。