論文の概要: FATE-VLA:Failue-aware test generation for vision-language-action models
- arxiv url: http://arxiv.org/abs/2606.02307v1
- Date: Mon, 01 Jun 2026 14:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.280252
- Title: FATE-VLA:Failue-aware test generation for vision-language-action models
- Title(参考訳): FATE-VLA:視覚言語アクションモデルのためのFailue-awareテスト生成
- Authors: Arusa Kanwal, Pablo Valle, Shaukat Ali, Aitor Arrieta,
- Abstract要約: ビジョンランゲージ・アクションモデルは、ジェネラリストロボットポリシーとしてますます使われている。
高次元のエンボディド空間では、障害はスパースでクラスタ化されているため、静的なベンチマークはリスクを過小評価する可能性がある。
本稿では,多様性に基づく探索と観察結果から得られたサロゲートモデルを組み合わせたフェールアウェアなテスト生成手法を提案する。
- 参考スコア(独自算出の注目度): 10.716019832991046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models are increasingly used as generalist robot policies, yet their evaluation still relies largely on static benchmarks that randomly sample task scenes. In high-dimensional embodied spaces, failures are sparse and clustered, so static benchmarking can underestimate robustness risks. We reframe VLA evaluation as an active failure-discovery problem and propose a failure-aware test-generation approach that combines diversity-driven exploration with surrogate models learned from observed executions. The method steers testing toward high-risk yet diverse scene regions. Across four state-of-the-art VLA models, it uncovers substantially more failures (up to +29.7 % over selected baselines) while revealing more diverse failure modes. This mean that, for instance, in the case of GR00T-N1.6, success rate dropped from 64.4% to 34.7%. More broadly, our findings call for a shift in VLA evaluation: from passive measurement on fixed task suites to adaptive, failure-seeking test generation that exposes the structure of model weaknesses before deployment.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、一般的なロボットポリシーとして使われることが多いが、その評価はタスクシーンをランダムにサンプリングする静的ベンチマークに大きく依存している。
高次元のエンボディド空間では、障害はスパースでクラスタ化されているため、静的なベンチマークはロバストネスのリスクを過小評価する可能性がある。
VLA評価をアクティブな障害発見問題として再編成し、多様性駆動探索と観察実行から学習したサロゲートモデルを組み合わせたフェールアウェアなテスト生成手法を提案する。
この方法は、高リスクで多様なシーン領域に向けてテストを行う。
最先端の4つのVLAモデルにまたがって、さらに多くの障害(選択されたベースラインよりも+29.7%)を明らかにし、さらに多様な障害モードを明らかにしている。
例えばGR00T-N1.6の場合、成功率は64.4%から34.7%に低下した。
より広範に、我々の研究はVLA評価のシフトを要求している: 固定されたタスクスイートの受動的測定から、デプロイ前のモデル弱点の構造を明らかにする適応的、障害を探すテスト生成まで。
関連論文リスト
- VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models [64.56065206447788]
ビジョン言語モデル(VLM)は、標準の高品質なデータセット上で強力なパフォーマンスを達成する。
VLM-RobustBenchはノイズ、ブラー、天気、デジタル、幾何学にまたがる49種類の拡張型にまたがるベンチマークである。
低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
論文 参考訳(メタデータ) (2026-03-06T10:58:02Z) - ProbeLLM: Automating Principled Diagnosis of LLM Failures [89.44131968886184]
ProbeLLMはベンチマークに依存しない自動探索フレームワークで、個々の障害から構造的障害モードへの脆弱性発見を増大させる。
ProbeLLMは、検証可能なテストケースにプローブを制限し、ツールの拡張された生成と検証を活用することで、信頼性のある証拠として障害発見を根拠とする。
論文 参考訳(メタデータ) (2026-02-13T14:33:13Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - How Do LLMs Fail In Agentic Scenarios? A Qualitative Analysis of Success and Failure Scenarios of Various LLMs in Agentic Simulations [0.0]
ツール使用機能を備えた自律型エージェントとして運用する場合,大規模言語モデル(LLM)がいかに失敗するかを検討する。
上座エージェントメリット指数(KAMI)v0.1ベンチマークを用いて、3つの代表モデルから900の実行トレースを解析した。
4つの繰り返し発生する障害アーチタイプを識別する:接地なしでの未熟なアクション、欠落したエンティティを置換する過剰なヘルパフルネス、イントラクタによるコンテキスト汚染に対する脆弱性、脆弱な実行。
論文 参考訳(メタデータ) (2025-12-08T12:27:15Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - STOP! Benchmarking Large Language Models with Sensitivity Testing on Offensive Progressions [6.19084217044276]
大規模言語モデル(LLM)における明示的バイアスと暗黙的バイアスの緩和は、自然言語処理の分野において重要な焦点となっている。
我々は,2700のユニークな文を含む450の攻撃的進行を含む,攻撃的進行に関する感性テストデータセットを紹介した。
以上の結果から,最も優れたモデルでさえバイアスを不整合に検出し,成功率は19.3%から69.8%であった。
論文 参考訳(メタデータ) (2024-09-20T18:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。