論文の概要: DatBench: Discriminative, Faithful, and Efficient VLM Evaluations
- arxiv url: http://arxiv.org/abs/2601.02316v1
- Date: Mon, 05 Jan 2026 18:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.34675
- Title: DatBench: Discriminative, Faithful, and Efficient VLM Evaluations
- Title(参考訳): DatBench: 差別的で忠実で効率的なVLM評価
- Authors: Siddharth Joshi, Haoli Yin, Rishabh Adiga, Ricardo Monti, Aldo Carranza, Alex Fang, Alvin Deng, Amro Abbas, Brett Larsen, Cody Blakeney, Darren Teh, David Schwab, Fan Pan, Haakon Mongstad, Jack Urbanek, Jason Lee, Jason Telanoff, Josh Wills, Kaleigh Mentzer, Luke Merrick, Parth Doshi, Paul Burstein, Pratyush Maini, Scott Loftin, Spandan Das, Tony Jiang, Vineeth Dorna, Zhengping Wang, Bogdan Gaza, Ari Morcos, Matthew Leavitt,
- Abstract要約: 経験的評価は、基礎モデルにおける研究の進展を導く主要なコンパスとして機能する。
評価が満足すべき3つのデシラタを提案する。モダリティと応用への忠実さ、品質の異なるモデル間の識別可能性、計算効率である。
私たちはDatBench-Fullをリリースした。DatBench-Fullは9つのVLM機能にまたがる33のデータセットからなるクリーンな評価スイートであり、DatBenchは平均13倍のスピードアップを達成する識別サブセットである。
- 参考スコア(独自算出の注目度): 17.506722616002463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Empirical evaluation serves as the primary compass guiding research progress in foundation models. Despite a large body of work focused on training frontier vision-language models (VLMs), approaches to their evaluation remain nascent. To guide their maturation, we propose three desiderata that evaluations should satisfy: (1) faithfulness to the modality and application, (2) discriminability between models of varying quality, and (3) efficiency in compute. Through this lens, we identify critical failure modes that violate faithfulness and discriminability, misrepresenting model capabilities: (i) multiple-choice formats reward guessing, poorly reflect downstream use cases, and saturate early as models improve; (ii) blindly solvable questions, which can be answered without images, constitute up to 70% of some evaluations; and (iii) mislabeled or ambiguous samples compromise up to 42% of examples in certain datasets. Regarding efficiency, the computational burden of evaluating frontier models has become prohibitive: by some accounts, nearly 20% of development compute is devoted to evaluation alone. Rather than discarding existing benchmarks, we curate them via transformation and filtering to maximize fidelity and discriminability. We find that converting multiple-choice questions to generative tasks reveals sharp capability drops of up to 35%. In addition, filtering blindly solvable and mislabeled samples improves discriminative power while simultaneously reducing computational cost. We release DatBench-Full, a cleaned evaluation suite of 33 datasets spanning nine VLM capabilities, and DatBench, a discriminative subset that achieves 13x average speedup (up to 50x) while closely matching the discriminative power of the original datasets. Our work outlines a path toward evaluation practices that are both rigorous and sustainable as VLMs continue to scale.
- Abstract(参考訳): 経験的評価は、基礎モデルにおける研究の進展を導く主要なコンパスとして機能する。
フロンティア視覚言語モデル(VLM)の訓練に焦点を絞った大規模な研究にもかかわらず、その評価へのアプローチはいまだに始まったばかりである。
成熟を導くために,(1)モダリティと応用への忠実さ,(2)品質の異なるモデル間の識別可能性,(3)計算効率の3つのデシラタを提案する。
このレンズを通して、忠実さと差別性に反し、モデルの能力を誤って表現する重要な障害モードを特定します。
(i)複数の選択形式による推定、下流のユースケースの反映の低さ、モデルの改善に伴う早期の飽和
(二)画像無しで答えることができる盲目的解決可能な質問は、いくつかの評価の七分の一を占める。
(3) 特定のデータセットのサンプルの最大42%を不正なラベル付きまたは曖昧なサンプルが妥協する。
効率性については、フロンティアモデルを評価する際の計算負荷が禁じられている。
既存のベンチマークを捨てるのではなく、変換とフィルタリングによってそれらをキュレートして、忠実さと差別性を最大化します。
複数項目の質問を生成タスクに変換すると,能力低下が最大35%減少することがわかった。
さらに、目に見える可溶性サンプルとラベルのずれサンプルのフィルタリングは、計算コストを同時に低減しつつ、識別力を向上させる。
私たちは、9つのVLM機能にまたがる33のデータセットからなるクリーンな評価スイートであるDatBench-Fullと、13倍の平均スピードアップ(最大50倍)を達成する識別サブセットであるDatBenchを、元のデータセットの識別能力と密接に一致させながらリリースしました。
我々の研究は、VLMが拡大を続けるにつれ、厳格かつ持続可能な評価プラクティスへの道筋を概説している。
関連論文リスト
- Self-Improving VLM Judges Without Human Annotations [74.29324865147838]
自己合成データのみを用いて,人間の好みのアノテーションを使わずにVLM判断モデルを自己学習する枠組みを提案する。
提案手法は,Llama-3.2-11Bマルチモーダル判定を0.38から0.51に改善する。
これらの注釈のない結果の全体的な強みは、VLM能力の急速な向上とともに進化する将来の自己判断の可能性を示している。
論文 参考訳(メタデータ) (2025-12-02T20:52:19Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks [49.0793012627959]
本稿では,価値に基づくパラダイム内での推論モデルに適した新しいフレームワークVAPOを提案する。
VAPOは最先端のスコアが$mathbf60.4$に達する。
同じ実験条件下で直接比較すると、VAPOはDeepSeek-R1-Zero-Qwen-32BとDAPOの結果を10点以上上回っている。
論文 参考訳(メタデータ) (2025-04-07T14:21:11Z) - IDGen: Item Discrimination Induced Prompt Generation for LLM Evaluation [15.895295957106772]
大規模言語モデル(LLMs)を評価するためのID誘発即時合成フレームワークを提案する。
我々のデータ合成フレームワークは、幅と特異性の両方を優先し、LLMの能力を包括的に評価するプロンプトを生成することができる。
我々は、LSMの評価研究を容易にするために、3000以上の慎重に作成されたプロンプトのデータセットをリリースする。
論文 参考訳(メタデータ) (2024-09-27T16:29:12Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。