論文の概要: Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
- arxiv url: http://arxiv.org/abs/2511.04655v1
- Date: Thu, 06 Nov 2025 18:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.569354
- Title: Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts
- Title(参考訳): ベンチマークデザイナは、エクスプロイタブルな非ビジュアルショートカットを出力するために、"テストセットのトレイン"をすべきである
- Authors: Ellis Brown, Jihan Yang, Shusheng Yang, Rob Fergus, Saining Xie,
- Abstract要約: 強力な視覚的理解なしに、モデルが多くのベンチマークを達成できることがわかりました。
これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。
ベンチマーク設計には診断原則を採用しており、もしベンチマークをゲーム化できれば、それをゲーム化します。
- 参考スコア(独自算出の注目度): 49.99400612296149
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust benchmarks are crucial for evaluating Multimodal Large Language Models (MLLMs). Yet we find that models can ace many multimodal benchmarks without strong visual understanding, instead exploiting biases, linguistic priors, and superficial patterns. This is especially problematic for vision-centric benchmarks that are meant to require visual inputs. We adopt a diagnostic principle for benchmark design: if a benchmark can be gamed, it will be. Designers should therefore try to ``game'' their own benchmarks first, using diagnostic and debiasing procedures to systematically identify and mitigate non-visual biases. Effective diagnosis requires directly ``training on the test set'' -- probing the released test set for its intrinsic, exploitable patterns. We operationalize this standard with two components. First, we diagnose benchmark susceptibility using a ``Test-set Stress-Test'' (TsT) methodology. Our primary diagnostic tool involves fine-tuning a powerful Large Language Model via $k$-fold cross-validation on exclusively the non-visual, textual inputs of the test set to reveal shortcut performance and assign each sample a bias score $s(x)$. We complement this with a lightweight Random Forest-based diagnostic operating on hand-crafted features for fast, interpretable auditing. Second, we debias benchmarks by filtering high-bias samples using an ``Iterative Bias Pruning'' (IBP) procedure. Applying this framework to four benchmarks -- VSI-Bench, CV-Bench, MMMU, and VideoMME -- we uncover pervasive non-visual biases. As a case study, we apply our full framework to create VSI-Bench-Debiased, demonstrating reduced non-visual solvability and a wider vision-blind performance gap than the original.
- Abstract(参考訳): ロバストベンチマークは、MLLM(Multimodal Large Language Models)の評価に不可欠である。
しかし、モデルが強い視覚的理解なしに多くのマルチモーダルベンチマークを取得でき、代わりにバイアス、言語的先行、表面パターンを活用できることがわかった。
これは視覚的な入力を意図した視覚中心のベンチマークでは特に問題となる。
ベンチマーク設計には診断原則を採用しています。
したがって、デザイナはまず、診断と偏見を使用して、視覚的でないバイアスを体系的に識別し軽減する、独自のベンチマークを‘ゲーム’しようとすべきである。
効果的な診断には、'`テストセットのトレーニング' -- 固有の、悪用可能なパターンに対して、リリース済みのテストセットを検索する必要がある。
この標準を2つのコンポーネントで運用します。
まず、ベンチマークの感受性を ``Test-set Stress-Test'' (TsT) 方法論を用いて診断する。
我々の主要な診断ツールは、ショートカット性能を明らかにし、各サンプルに$s(x)$のバイアススコアを割り当てるために、テストセットの視覚的でないテキスト入力のみに$k$-foldクロスバリデーションを通じて強力なLarge Language Modelを微調整することである。
我々は、高速で解釈可能な監査のために手作りの機能を利用する軽量なランダムフォレストベースの診断でこれを補完する。
次に,<Iterative Bias Pruning'' (IBP) 法を用いてハイバイアスサンプルをフィルタすることにより,ベンチマークをデバイアス化する。
このフレームワークをVSI-Bench、CV-Bench、MMMU、VideoMMEの4つのベンチマークに適用することで、広範に広がる非視覚バイアスを明らかにします。
ケーススタディでは、VSI-Bench-Debiasedを作成するためのフルフレームワークを適用し、非視覚的解決可能性の低減と、オリジナルよりも広い視覚的ブラインド性能のギャップを示す。
関連論文リスト
- How Many Code and Test Cases Are Enough? Evaluating Test Cases Generation from a Binary-Matrix Perspective [51.30005925128432]
LLM(Large Language Models)が自動生成するテストケースの評価は、非常に難しい作業です。
既存のベンチマークは高い計算コスト、インフレーションのスコア、稀でクリティカルな欠陥に対する自明なバグに対するバイアスに悩まされている。
本稿では,ベンチマーク構築をバイナリコードテスト行列の最適な診断基準として定式化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-09T18:29:24Z) - Benchmark Profiling: Mechanistic Diagnosis of LLM Benchmarks [34.09939383415074]
ベンチマークプロファイリングは、ベンチマークのパフォーマンスを10の認知的基盤を持つ能力に分解する。
パフォーマンス向上がユーザ認識能力に必ずしも変換されない理由を説明する。
論文 参考訳(メタデータ) (2025-09-23T15:32:47Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Leaving the barn door open for Clever Hans: Simple features predict LLM benchmark answers [10.786564839628952]
AIベンチマークの内部的妥当性は、要因の相違のないことを保証するために不可欠である。
我々は、AIシステムが意図しない方法でベンチマークを解決し、テスト対象の能力を回避できる可能性を調査する。
論文 参考訳(メタデータ) (2024-10-15T15:05:41Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Scalable Performance Analysis for Vision-Language Models [26.45624201546282]
統合視覚言語モデルは、様々なタスクセットに対して優れたパフォーマンスを示している。
本稿では、すでにアノテーション付きベンチマークに依存する、よりスケーラブルなソリューションを紹介します。
従来,CLIPは単語の袋のように振る舞い,名詞や動詞でより良く振る舞うことが確認された。
論文 参考訳(メタデータ) (2023-05-30T06:40:08Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - On the Limits of Evaluating Embodied Agent Model Generalization Using
Validation Sets [101.28658250723804]
本稿では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールによるトランスフォーマーモデルの拡張実験を行う。
提案したモジュールは改良され,実際に,一般的なベンチマークデータセットであるALFREDの未確認検証セット上での最先端のパフォーマンスが向上した。
この結果は、機械学習タスクではより広い現象かもしれないが、主にテストスプリットの評価を制限するベンチマークでのみ顕著である、と我々は考えているので強調する。
論文 参考訳(メタデータ) (2022-05-18T23:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。