論文の概要: NEBULA: Do We Evaluate Vision-Language-Action Agents Correctly?
- arxiv url: http://arxiv.org/abs/2510.16263v1
- Date: Fri, 17 Oct 2025 23:22:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.923215
- Title: NEBULA: Do We Evaluate Vision-Language-Action Agents Correctly?
- Title(参考訳): NEBULA: ビジョンランゲージ・アクション・エージェントは正しく評価できるか?
- Authors: Jierui Peng, Yanyan Zhang, Yicheng Duan, Tuo Liang, Vipin Chaudhary, Yu Yin,
- Abstract要約: 単腕操作のための統合型エコシステムである textbfNEBULA を導入し,診断と再現性の評価を可能にした。
NEBULAは、精密なスキル診断のためのきめ細かいテキスタイルテストと、堅牢性を測定する系統的なテキスタイルテストを組み合わせた、新しい2軸評価プロトコルを備えている。
フラグメンテーションを削減し、データセット間のトレーニングと公正比較をサポートするため、標準化されたAPIと大規模な集約データセットが提供される。
- 参考スコア(独自算出の注目度): 10.307093355903232
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The evaluation of Vision-Language-Action (VLA) agents is hindered by the coarse, end-task success metric that fails to provide precise skill diagnosis or measure robustness to real-world perturbations. This challenge is exacerbated by a fragmented data landscape that impedes reproducible research and the development of generalist models. To address these limitations, we introduce \textbf{NEBULA}, a unified ecosystem for single-arm manipulation that enables diagnostic and reproducible evaluation. NEBULA features a novel dual-axis evaluation protocol that combines fine-grained \textit{capability tests} for precise skill diagnosis with systematic \textit{stress tests} that measure robustness. A standardized API and a large-scale, aggregated dataset are provided to reduce fragmentation and support cross-dataset training and fair comparison. Using NEBULA, we demonstrate that top-performing VLAs struggle with key capabilities such as spatial reasoning and dynamic adaptation, which are consistently obscured by conventional end-task success metrics. By measuring both what an agent can do and when it does so reliably, NEBULA provides a practical foundation for robust, general-purpose embodied agents.
- Abstract(参考訳): VLA(Vision-Language-Action)エージェントの評価は、正確なスキル診断や現実世界の摂動に対する堅牢性の測定に失敗する粗い、エンドタスクの成功指標によって妨げられる。
この課題は、再現可能な研究とジェネラリストモデルの開発を妨げる断片化されたデータランドスケープによって悪化する。
これらの制約に対処するために、単腕操作のための統合エコシステムである \textbf{NEBULA} を導入し、診断と再現性の評価を可能にする。
NEBULAは、きめ細かい \textit{capability test} と、堅牢性を測定する系統的な \textit{stress test} を組み合わせた、新しい2軸評価プロトコルを備えている。
フラグメンテーションを削減し、データセット間のトレーニングと公正比較をサポートするため、標準化されたAPIと大規模な集約データセットが提供される。
NEBULAを用いて、従来のエンドタスク成功指標によって一貫して曖昧化されている空間推論や動的適応といった重要な機能に、トップパフォーマンスのVLAが苦戦していることを示す。
NEBULAは、エージェントに何ができるかを確実に測定することで、堅牢で汎用的なエンボディエージェントの実用的な基盤を提供する。
関連論文リスト
- Uncertainty-Guided Expert-AI Collaboration for Efficient Soil Horizon Annotation [0.13999481573773068]
土壌プロファイルを記述するためのマルチモーダルマルチタスクモデルである$textitSoilNet$に共形予測を適用する。
我々は,モデルの不確実性が高い場合に,基本真理アノテーションを得るための限られた予算が利用できる,シミュレーションされたHILアノテーションパイプラインを設計する。
実験により、SoilNetの適合性は回帰タスクにおけるより効率的なアノテーションと分類タスクにおける同等のパフォーマンススコアをもたらすことが示された。
論文 参考訳(メタデータ) (2025-09-29T14:54:23Z) - Rethinking Evaluation of Infrared Small Target Detection [105.59753496831739]
本稿では,画素レベルと目標レベルのパフォーマンスを取り入れたハイブリッドレベルのメトリクスを導入し,システム的エラー解析手法を提案し,クロスデータセット評価の重要性を強調した。
標準化されたベンチマークを容易にするオープンソースツールキットがリリースされた。
論文 参考訳(メタデータ) (2025-09-21T02:45:07Z) - Inference Gap in Domain Expertise and Machine Intelligence in Named Entity Recognition: Creation of and Insights from a Substance Use-related Dataset [6.343399421398501]
非医療オピオイドの使用は公衆衛生上の緊急の課題である。
ソーシャルメディアの物語から、自己報告結果の2つのカテゴリを抽出するために、名前付きエンティティ認識(NER)フレームワークを提案する。
我々は、ゼロショットと少数ショットのインコンテキスト学習設定下で、微調整エンコーダモデルと最先端の大規模言語モデル(LLM)の両方を評価する。
論文 参考訳(メタデータ) (2025-08-26T23:09:43Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [45.03594130075282]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - On the Practicality of Deterministic Epistemic Uncertainty [106.06571981780591]
決定論的不確実性法(DUM)は,分布外データの検出において高い性能を達成する。
DUMが十分に校正されており、現実のアプリケーションにシームレスにスケールできるかどうかは不明だ。
論文 参考訳(メタデータ) (2021-07-01T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。