論文の概要: VISOR: A Vision-Language Model-based Test Oracle for Testing Robots
- arxiv url: http://arxiv.org/abs/2605.10408v2
- Date: Sat, 16 May 2026 05:46:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.252697
- Title: VISOR: A Vision-Language Model-based Test Oracle for Testing Robots
- Title(参考訳): VISOR: ロボットをテストするためのビジョンランゲージモデルベースのテストOracle
- Authors: Prasun Saurabh, Pablo Valle, Aitor Arrieta, Shaukat Ali, Paolo Arcaini,
- Abstract要約: ロボットをテストするには、意図したタスクを正しく、確実に、高品質に実行するかどうかを評価する必要がある。
伝統的に、この評価はタスク固有の象徴的オラクルをタスクの正しさと人間の手動によるロボット行動の評価に頼っている。
視覚言語モデル(VLM)に基づく自動テストオラクル評価手法であるVISORを提案する。
- 参考スコア(独自算出の注目度): 12.946626292999705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Testing robots requires assessing whether they perform their intended tasks correctly, dependably, and with high quality, a challenge known as the test oracle problem in software testing. Traditionally, this assessment relies on task-specific symbolic oracles for task correctness and on human manual evaluation of robot behavior, which is time-consuming, subjective, and error-prone. To address this, we propose VISOR, a Vision-Language Model (VLM)-based approach for automated test oracle assessment that eliminates the need of expensive human evaluations. VISOR performs automated evaluation of task correctness and quality, addressing the limitations of existing symbolic test oracles, which are task-specific and provide pass/fail judgments without explicitly quantifying task quality. Given the inherent uncertainty in VLMs, VISOR also explicitly quantifies its own uncertainty during test assessments. We evaluated VISOR using two VLMs, i.e., GPT and Gemini, across four robotic tasks on over 1,000 videos. Results show that Gemini achieves higher recall while GPT achieves higher precision. However, both models show low correlation between uncertainty and correctness, which prevents using uncertainty as a correctness predictor.
- Abstract(参考訳): テストロボットは、意図したタスクを正しく、確実に実行し、高品質で評価する必要がある。
伝統的に、この評価はタスク固有の記号オラクルをタスクの正しさと、時間を要する、主観的で、エラーを起こしやすいロボット行動の人手による評価に頼っている。
そこで本研究では,視覚言語モデル(VLM)に基づく自動オラクル評価手法であるVISORを提案する。
VISORはタスクの正確さと品質を自動評価し、タスク固有の既存のシンボリックテストオラクルの限界に対処し、タスク品質を明示的に定量化することなくパス/フェイル判定を提供する。
VLMに固有の不確実性を考えると、VISORはテストアセスメント中に自身の不確実性も明示的に定量化する。
我々は,2つのVLM,すなわちGPTとGeminiを用いて,1000本以上のビデオ上で4つのロボットタスクでVISORを評価した。
その結果、GPTは高い精度を達成する一方、ジェミニは高いリコールを達成することがわかった。
しかし、どちらのモデルも不確かさと正しさの相関が低く、不確かさを正しさ予測器として使うのを防ぐ。
関連論文リスト
- Metamorphic Testing of Vision-Language Action-Enabled Robots [12.232630336816463]
本稿では,VLA(Vision-Language-Action)モデルにおけるテストオラクル問題を軽減するため,メタモルフィックテスト(MT)を提案する。
5つのVLAモデル、2つの模擬ロボット、4つのロボットタスクを含む実証研究は、MTがテストオラクル問題を効果的に緩和できることを示している。
論文 参考訳(メタデータ) (2026-02-26T03:32:43Z) - Will AI also replace inspectors? Investigating the potential of generative AIs in usability inspection [0.0]
本研究では、ユーザビリティ問題を特定するための生成AIの性能を、経験豊富な人間の検査者と比較した。
検査官が最高レベルの精度と全体的なカバレッジを達成した一方で、AIは高い個別のパフォーマンスを示し、多くの新しい欠陥を発見したが、偽陽性と冗長な報告の頻度は高かった。
これらの結果は、現在の段階では、AIは人間のインスペクタを置き換えることはできないが、効率を改善し、欠陥カバレッジを拡大するための貴重な拡張ツールとして役立つことを示唆している。
論文 参考訳(メタデータ) (2025-10-19T23:59:15Z) - Evaluating Uncertainty and Quality of Visual Language Action-enabled Robots [13.26825865228582]
ロボット操作タスクのためのVLAモデルに特化して設計された8つの不確実性指標と5つの品質指標を提案する。
我々は,3つの最先端VLAモデルから908のタスク実行を成功させる大規模実証実験により,その有効性を評価する。
論文 参考訳(メタデータ) (2025-07-22T22:15:59Z) - On Benchmarking Human-Like Intelligence in Machines [77.55118048492021]
現在のAI評価パラダイムは、人間のような認知能力を評価するには不十分である、と我々は主張する。
人為的なラベルの欠如、人間の反応の多様性と不確実性の表現の不適切な表現、単純で生態学的に無意味なタスクへの依存。
論文 参考訳(メタデータ) (2025-02-27T20:21:36Z) - Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。
ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。
我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文 参考訳(メタデータ) (2024-04-08T17:18:04Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Pushing the Right Buttons: Adversarial Evaluation of Quality Estimation [25.325624543852086]
本稿では,機械翻訳(MT)システムにおける品質推定の逆検定法を提案する。
近年のSOTAによる人的判断と高い相関があるにもかかわらず、ある種の意味エラーはQEが検出する上で問題である。
第二に、平均的に、あるモデルが意味保存と意味調整の摂動を区別する能力は、その全体的な性能を予測できることが示される。
論文 参考訳(メタデータ) (2021-09-22T17:32:18Z) - Task-Specific Normalization for Continual Learning of Blind Image
Quality Models [105.03239956378465]
視覚的画像品質評価(BIQA)のための簡易かつ効果的な連続学習法を提案する。
このアプローチの重要なステップは、トレーニング済みのディープニューラルネットワーク(DNN)のすべての畳み込みフィルタを凍結して、安定性を明示的に保証することです。
我々は、各新しいIQAデータセット(タスク)に予測ヘッドを割り当て、対応する正規化パラメータをロードして品質スコアを生成する。
最終的な品質推定は、軽量な$K$-meansゲーティング機構で、すべての頭からの予測の重み付け総和によって計算される。
論文 参考訳(メタデータ) (2021-07-28T15:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。