論文の概要: VLAMotor: Test-Guided Enhancement of Vision-Language-Action Models via Agent-BasedData Synthesis
- arxiv url: http://arxiv.org/abs/2606.00053v1
- Date: Sat, 16 May 2026 08:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:18:43.892313
- Title: VLAMotor: Test-Guided Enhancement of Vision-Language-Action Models via Agent-BasedData Synthesis
- Title(参考訳): VLAMotor:エージェントベースデータ合成によるビジョンランゲージ・アクションモデルのテストガイドによる拡張
- Authors: Zeqin Liao, Peifan Ren, Zixu Gao, Hongyu Gong, Lianyu Hu, Wenbing Tang, Yuhong Nan, Zibin Zheng, Yang Liu,
- Abstract要約: VLA(Vision-Language-Action)モデルは、トレーニングデータのカバレッジによって制約されるため、デプロイ後のエッジケース構成で障害が発生しやすい。
フェール露光のための距離認識モデルテストとモデル微調整のためのエージェントベースデータ合成を統合した,VLA拡張のための最初の分析フレームワークであるVLAMotorを提案する。
- 参考スコア(独自算出の注目度): 44.51766773247249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models follow a data-driven paradigm and are constrained by the coverage of training data, making them prone to failure on edge-case configurations after deployment. To mitigate such risks, it is essential to expose high-quality failure modes and convert the resulting failures into supervisory data for model enhancement. Existing studies largely stop at failure detection and lack a mechanism for leveraging discovered failures for model repair. We propose VLAMotor, the first analysis framework for VLA enhancement, which integrates distance-aware model testing for failure exposure and agent-based data synthesis for model finetunning. First, VLAMotor estimates input uncertainty based on the distance to training samples, and combines uncertainty ranking with redundancy elimination to build compact test sets that expose diverse failures. Then, VLAMotor abstracts failure trajectories into structured semantic representations, and plans parameterized repair-skill sequences, which are then realized as executable trajectories through inverse kinematics and motion execution. The resulting successful trajectories are automatically labeled and used to fine-tune the original VLA model, yielding an enhanced VLA model. Evaluation on four representative robotic manipulation tasks shows that 92.33% of the in-simulation test cases generated by VLAMotor trigger VLA failures, and VLAMotor improves test coverage over the state-of-the-art tool by 18.93%. By fine-tuning VLA models with synthetic data derived from failed test cases, VLAMotor further enhances the overall success rate of VLA models by 49.25%. When deployed on real hardware, the simulation-enhanced models improve the success rate over the original VLA models by 57.50%, demonstrating an effective and low-cost direction for VLA enhancement.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、データ駆動のパラダイムに従っており、トレーニングデータのカバレッジに制約されているため、デプロイ後のエッジケース構成で障害を起こしやすい。
このようなリスクを軽減するためには、高品質な障害モードを公開し、結果の失敗をモデル強化のための監視データに変換することが不可欠である。
既存の研究は、主に故障検出を停止し、発見された失敗をモデル修復に活用するメカニズムが欠如している。
フェール露光のための距離認識モデルテストとモデル微調整のためのエージェントベースデータ合成を統合した,VLA拡張のための最初の分析フレームワークであるVLAMotorを提案する。
まず、VLAMotorは、トレーニングサンプルまでの距離に基づいて入力の不確実性を推定し、不確実性ランキングと冗長性除去を組み合わせ、多様な障害を露呈するコンパクトなテストセットを構築する。
次に、VLAMotorは、障害軌跡を構造化された意味表現に抽象化し、パラメータ化された修復スキルシーケンスを計画し、その後、逆運動学と運動実行を通して実行可能な軌跡として実現する。
得られた軌道は自動的にラベル付けされ、オリジナルのVLAモデルを微調整するために使用され、拡張されたVLAモデルが得られる。
代表的な4つのロボット操作タスクの評価では、VLAMotorがVLA障害を誘発するシミュレーションテストケースの92.33%、VLAMotorは最先端のツールに対するテストカバレッジを18.93%改善している。
テストケースから得られた合成データでVLAモデルを微調整することで、VLAMotorはVLAモデルの全体的な成功率をさらに49.25%向上させる。
実際のハードウェアに配備された場合、シミュレーションによって強化されたモデルは、オリジナルのVLAモデルよりも57.50%の成功率を改善し、VLAの強化のために効果的で低コストな方向を示す。
関連論文リスト
- FATE-VLA:Failue-aware test generation for vision-language-action models [10.716019832991046]
ビジョンランゲージ・アクションモデルは、ジェネラリストロボットポリシーとしてますます使われている。
高次元のエンボディド空間では、障害はスパースでクラスタ化されているため、静的なベンチマークはリスクを過小評価する可能性がある。
本稿では,多様性に基づく探索と観察結果から得られたサロゲートモデルを組み合わせたフェールアウェアなテスト生成手法を提案する。
論文 参考訳(メタデータ) (2026-06-01T14:27:13Z) - Sentinel-VLA: A Metacognitive VLA Model with Active Status Monitoring for Dynamic Reasoning and Error Recovery [62.75419724651416]
textbfSentinel-VLAは,リアルタイム実行状況を監視するアクティブセンチネルモジュールを備えたメタ認知型VLAモデルである。
すべてのトレーニングデータは、設計したパイプラインを通じて自動生成され、注釈付けされます。
実世界の実験では、Sentinel-VLAはSOTAモデルであるPI0と比較してタスク成功率を30%以上向上することを示した。
論文 参考訳(メタデータ) (2026-05-02T02:10:54Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models [53.20969621498248]
本稿では,多種多様な計画および実行障害を生成するために,軌道を手続き的に乱す自動ロボット故障合成手法を提案する。
RLBench-Fail, BridgeDataV2-Fail, UR5-Failの3つの新しい故障検出ベンチマークを構築した。
次に、詳細な障害推論と検出のためのマルチビューイメージを備えたVLMであるGuardianをトレーニングします。
論文 参考訳(メタデータ) (2025-12-01T17:57:27Z) - RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models [28.422082187079166]
我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。
RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは9%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-21T20:56:17Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。
VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。