論文の概要: VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images
- arxiv url: http://arxiv.org/abs/2603.06680v1
- Date: Tue, 03 Mar 2026 23:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.789606
- Title: VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images
- Title(参考訳): VB:画像の可視性とパースペクティブ推論のための可視性ベンチマーク
- Authors: Neil Tripathi,
- Abstract要約: 本稿では、視覚言語モデルが写真で何が見えていないのかを判断できるかどうかを判定するベンチマークであるVBを提案する。
アイテムは、最小限の画像編集を最小限のテキスト編集で横断する2x2デザインを使用して、100のファミリーに編成される。
我々は,自信認識精度(CAA),最小編集フリップ率(MEFR),信頼ランク選択予測(SelRank),第2次視点推論のモデルを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present VB, a benchmark that tests whether vision-language models can determine what is and is not visible in a photograph, and abstain when a human viewer cannot reliably answer. Each item pairs a single photo with a short yes/no visibility claim; the model must output VISIBLY_TRUE, VISIBLY_FALSE, or ABSTAIN, together with a confidence score. Items are organized into 100 families using a 2x2 design that crosses a minimal image edit with a minimal text edit, yielding 300 headline evaluation cells. Unlike prior unanswerable-VQA benchmarks, VB tests not only whether a question is unanswerable but why (via reason codes tied to specific visibility factors), and uses controlled minimal edits to verify that model judgments change when and only when the underlying evidence changes. We score models on confidence-aware accuracy with abstention (CAA), minimal-edit flip rate (MEFR), confidence-ranked selective prediction (SelRank), and second-order perspective reasoning (ToMAcc); all headline numbers are computed on the strict XOR subset (three cells per family, 300 scored items per model). We evaluate nine models spanning flagship and prior-generation closed-source systems, and open-source models from 8B to 12B parameters. GPT-4o and Gemini 3.1 Pro effectively tie for the best composite score (0.728 and 0.727), followed by Gemini 2.5 Pro (0.678). The best open-source model, Gemma 3 12B (0.505), surpasses one prior-generation closed-source system. Text-flip robustness exceeds image-flip robustness for six of nine models, and confidence calibration varies substantially: GPT-4o and Gemini 2.5 Pro achieve similar accuracy yet differ sharply in selective prediction quality.
- Abstract(参考訳): VBは、視覚言語モデルが写真の中で何であり、何が見えないのかを判断し、人間のビューアが確実に答えられないかどうかを判断するベンチマークである。
モデルは信頼スコアとともにVISIBLY_TRUE、VISIBLY_FALSE、ABSTAINを出力しなければならない。
アイテムは、最小限の画像編集を最小限のテキスト編集で横断する2x2デザインを使用して100のファミリーに編成され、300の見出し評価セルが生成される。
従来の未解決-VQAベンチマークとは異なり、VBは疑問が解決不可能であるかどうかだけでなく、なぜ(特定の可視性要因に結びついている理由コードを介して)理由をテストし、制御された最小限の編集を使用して、基礎となる証拠が変更されたときとのみモデル判断が変わることを検証する。
我々は, 信頼度認識精度(CAA), 最小遅延フリップ率(MEFR), 信頼度ランク選択予測(SelRank), 第二次視点推論(ToMAcc)のモデルを厳密なXORサブセット(家族当たり3セル, モデル毎300項目)で計算する。
フラッグシップおよび前世代のクローズドソースシステムにまたがる9つのモデルと,8Bから12Bパラメータのオープンソースモデルを評価した。
GPT-4o と Gemini 3.1 Pro は事実上最高の合成スコア (0.728 と 0.727) と一致し、続いて Gemini 2.5 Pro (0.678) が続く。
最も優れたオープンソースモデルであるGemma 3 12B (0.505)は、前世代のクローズドソースシステムを上回っている。
GPT-4o と Gemini 2.5 Pro も同様の精度を達成できるが、選択的な予測品質では著しく異なる。
関連論文リスト
- SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - Multimodal RewardBench 2: Evaluating Omni Reward Models for Interleaved Text and Image [58.14192385042352]
マルチモーダル・リワードベンチ2(MMRB2)は,マルチモーダル理解と(インターリーブされた)生成に対する報酬モデルの最初のベンチマークである。
MMRB2はテキスト・ツー・イメージ、画像編集、インターリーブド・ジェネレーション、マルチモーダル推論の4つのタスクにまたがる。
21のソースタスクにわたる23のモデルとエージェントから、タスク毎に1000のエキスパートアノテートされた好みペアを提供する。
論文 参考訳(メタデータ) (2025-12-18T18:56:04Z) - ObjexMT: Objective Extraction and Metacognitive Calibration for LLM-as-a-Judge under Multi-Turn Jailbreaks [12.396822247035578]
目的抽出とメタ認知のためのベンチマークであるexMTを提案する。
マルチターン書き起こしが与えられた場合、モデルは1文ベース目標と自己報告された自信を出力しなければならない。
正確性は金の目標と類似性によって評価され、300の校正項目で1度閾値付けされる。
論文 参考訳(メタデータ) (2025-08-23T03:32:04Z) - FLIP Reasoning Challenge [20.706469085872516]
本稿では,人間の検証タスクに基づいてAI推論能力を評価するためのベンチマークであるFLIPデータセットを紹介する。
FLIPの課題は、4つのイメージの2つの順序をユーザに提供することだ。
我々の実験は、視覚言語モデル(VLM)と大規模言語モデル(LLM)の両方を活用して、最先端のモデルを評価する。
論文 参考訳(メタデータ) (2025-04-16T17:07:16Z) - Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT [0.0]
本研究では,マルチイメージ推論タスクとリジェクションに基づく評価と位置偏差検出を統合した新しいベンチマークを提案する。
我々はGrok 3, ChatGPT-4o, ChatGPT-o1, Gemini 2.0 Flash Experimental, DeepSeek Janus model, Qwen2.5-VL-72B-Instruct, QVQ-72B-Preview, Pixtral 12Bを評価するためにこのベンチマークを適用した。
論文 参考訳(メタデータ) (2025-02-23T04:01:43Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - One Eye is All You Need: Lightweight Ensembles for Gaze Estimation with
Single Encoders [0.0]
本稿では,ResNet と Inception モデルアーキテクチャを実装した視線推定モデルを提案する。
軽量アーキテクチャを用いることで,モデルパラメータ数が非常に少ないGazeCaptureデータセット上で高い性能を実現する。
また,テストセットの右目画像の誤差も有意に小さく,将来の視線推定ツールの設計において重要である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-22T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。