論文の概要: Auto-Comp: An Automated Pipeline for Scalable Compositional Probing of Contrastive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.02043v1
- Date: Mon, 02 Feb 2026 12:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.147227
- Title: Auto-Comp: An Automated Pipeline for Scalable Compositional Probing of Contrastive Vision-Language Models
- Title(参考訳): Auto-Comp: コントラスト視覚言語モデルのスケーラブルな構成探索のための自動パイプライン
- Authors: Cristian Sbrolli, Matteo Matteucci, Toshihiko Yamasaki,
- Abstract要約: 現代視覚言語モデル(VLM)は、構成的推論において重大な欠陥を示す。
これらの失敗の視覚的および言語的ルーツを遠ざけることは、堅牢な評価の根本的な課題である。
スケーラブルなベンチマークを生成するための、完全に自動化され合成されたパイプラインであるAuto-Compを紹介します。
- 参考スコア(独自算出の注目度): 34.62069348601896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Vision-Language Models (VLMs) exhibit a critical flaw in compositional reasoning, often confusing "a red cube and a blue sphere" with "a blue cube and a red sphere". Disentangling the visual and linguistic roots of these failures is a fundamental challenge for robust evaluation. To enable fine-grained, controllable analysis, we introduce Auto-Comp, a fully automated and synthetic pipeline for generating scalable benchmarks. Its controllable nature is key to dissecting and isolating different reasoning skills. Auto-Comp generates paired images from Minimal (e.g., "a monitor to the left of a bicycle on a white background") and LLM-generated Contextual captions (e.g., "In a brightly lit photography studio, a monitor is positioned to the left of a bicycle"), allowing a controlled A/B test to disentangle core binding ability from visio-linguistic complexity. Our evaluation of 20 VLMs on novel benchmarks for color binding and spatial relations reveals universal compositional failures in both CLIP and SigLIP model families. Crucially, our novel "Confusion Benchmark" reveals a deeper flaw beyond simple attribute swaps: models are highly susceptible to low-entropy distractors (e.g., repeated objects or colors), demonstrating their compositional failures extend beyond known bag-of-words limitations. we uncover a surprising trade-off: visio-linguistic context, which provides global scene cues, aids spatial reasoning but simultaneously hinders local attribute binding by introducing visual clutter. We release the Auto-Comp pipeline to facilitate future benchmark creation, alongside all our generated benchmarks (https://huggingface.co/AutoComp).
- Abstract(参考訳): 現代の視覚言語モデル(VLM)は構成的推論において重大な欠陥を示し、しばしば「赤い立方体と青い球体」を「青い立方体と赤い球体」と混同する。
これらの失敗の視覚的および言語的ルーツを遠ざけることは、堅牢な評価の根本的な課題である。
きめ細かな制御可能な分析を可能にするために,スケーラブルなベンチマークを生成するための,完全に自動化された合成パイプラインであるAuto-Compを導入する。
そのコントロール可能な性質は、異なる推論スキルを分離し分離するための鍵である。
Auto-Compは、Minimal(例えば「白い背景の自転車の左側のモニター」)とLLM生成のコンテキストキャプション(例えば「明るく照らされた撮影スタジオでは、モニターは自転車の左側に配置されている」)からペア画像を生成し、制御されたA/Bテストは、視覚言語的な複雑さからコアバインディング能力を解き放つことができる。
カラーバインディングと空間関係のベンチマークによる20個のVLMの評価により,CLIPモデルとSigLIPモデルの両方において普遍的な構成上の欠陥が明らかとなった。
モデルは低エントロピー(例えば、繰り返されるオブジェクトや色)に非常に敏感であり、その構成上の失敗は、既知のba-of-words制限を超えて拡大している。
視覚言語的コンテキストは、グローバルなシーンキューを提供し、空間的推論を支援するが、視覚的クラッタを導入することで、局所的な属性バインディングを阻害する。
すべての生成されたベンチマーク(https://huggingface.co/AutoComp)と一緒に、将来のベンチマーク作成を容易にするためにAuto-Compパイプラインをリリースしています。
関連論文リスト
- Can LLMs See Without Pixels? Benchmarking Spatial Intelligence from Textual Descriptions [18.455501447828343]
空間知能(SI)は視覚言語モデル(VLM)に大きく依存している
画素レベルの入力を必要としない大規模言語モデル(LLM)のSI性能を評価するために設計された新しいベンチマークであるSiT-Benchを紹介する。
空間的推論により性能が著しく向上し,LLMには潜在的世界モデリングの可能性があることが示唆された。
論文 参考訳(メタデータ) (2026-01-07T05:13:52Z) - When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought [118.71264263478083]
MIRAは,中間画像の生成が推論の成功に不可欠であるシナリオにおいて,モデルを評価するために設計された新しいベンチマークである。
546のマルチモーダル問題を含み、中間画像と最終回答が注釈付きである。
論文 参考訳(メタデータ) (2025-11-04T18:00:51Z) - Beyond Frequency: Scoring-Driven Debiasing for Object Detection via Blueprint-Prompted Image Synthesis [97.37770785712475]
オブジェクト検出のための世代ベースデバイアスフレームワークを提案する。
提案手法は,未表現オブジェクト群の性能ギャップを著しく狭める。
論文 参考訳(メタデータ) (2025-10-21T02:19:12Z) - FairViT-GAN: A Hybrid Vision Transformer with Adversarial Debiasing for Fair and Explainable Facial Beauty Prediction [0.0]
顔の美を予測するための新しいハイブリッドフレームワークである textbfFairViT-GAN を提案する。
本研究では,FairViT-GANが予測精度を向上し,textbf0.9230のピアソン相関を実現し,RMSEをtextbf0.2650に短縮することを示す。
対象者の分類精度がほぼランダムな確率(52.1%)に低下する傾向がみられた。
論文 参考訳(メタデータ) (2025-09-28T12:55:31Z) - Do VLMs Have Bad Eyes? Diagnosing Compositional Failures via Mechanistic Interpretability [2.1432646818975014]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったタスクの視覚情報とテキスト情報の統合において、顕著なパフォーマンスを示している。
これらのモデルは合成一般化とオブジェクト結合に苦慮する。
我々の研究は、機械的解釈可能性技術を用いて、これらの失敗の根本原因を探究する。
論文 参考訳(メタデータ) (2025-08-20T01:15:28Z) - EasyARC: Evaluating Vision Language Models on True Visual Reasoning [0.0]
本稿では,マルチイメージ,マルチステップ推論,自己補正を必要とする視覚言語ベンチマークであるEasyARCを紹介する。
EasyARCは手続き的に生成され、完全に検証可能で、スケーラブルであり、強化学習パイプラインに最適である。
我々は最先端のビジョン言語モデルをベンチマークし、その失敗モードを分析する。
論文 参考訳(メタデータ) (2025-06-13T09:03:33Z) - End-to-End Vision Tokenizer Tuning [73.3065542220568]
低レベルの再構築のために最適化された視覚トークンーは、様々な表現と意味論を必要とする下流タスクである。
視覚トークン化の損失は、ターゲットタスクの表現ボトルネックになる可能性がある。
本研究では,視覚トークン化と目標自己回帰タスクを協調的に最適化するエンド・ツー・エンドの視覚トークン化チューニング手法であるETTを提案する。
論文 参考訳(メタデータ) (2025-05-15T17:59:39Z) - SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models [19.005364038603204]
自己整合性チューニング(SC-Tune)と呼ばれる新しい微調整パラダイムを導入する。
SC-Tuneは循環型記述子-ロケータシステムの相乗学習を特徴としている。
SC-Tuneは、オブジェクトレベルの視覚言語ベンチマークにおいて、性能を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-03-20T03:00:21Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。