論文の概要: SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.18179v1
- Date: Mon, 25 Aug 2025 16:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.864201
- Title: SEAM: Semantically Equivalent Across Modalities Benchmark for Vision-Language Models
- Title(参考訳): SEAM: ビジョンランゲージモデルのためのモーダリティのセマンティックに等価なベンチマーク
- Authors: Zhenwei Tang, Difan Jiao, Blair Yang, Ashton Anderson,
- Abstract要約: セマンティックに等価な入力を4つのドメインにペアリングするベンチマークSEAMを紹介する。
我々は、21の現代視覚言語モデルにおいて、系統的なモダリティの不均衡を観察する。
私たちの結果は、ビジュアルトランスフォーメーションに対して非常に堅牢です。
- 参考スコア(独自算出の注目度): 10.70779791524137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating whether vision-language models (VLMs) reason consistently across representations is challenging because modality comparisons are typically confounded by task differences and asymmetric information. We introduce SEAM, a benchmark that pairs semantically equivalent inputs across four domains that have existing standardized textual and visual notations. By employing distinct notation systems across modalities, in contrast to OCR-based image-text pairing, SEAM provides a rigorous comparative assessment of the textual-symbolic and visual-spatial reasoning capabilities of VLMs. Across 21 contemporary models, we observe systematic modality imbalance: vision frequently lags language in overall performance, despite the problems containing semantically equivalent information, and cross-modal agreement is relatively low. Our error analysis reveals two main drivers: textual perception failures from tokenization in domain notation and visual perception failures that induce hallucinations. We also show that our results are largely robust to visual transformations. SEAM establishes a controlled, semantically equivalent setting for measuring and improving modality-agnostic reasoning.
- Abstract(参考訳): 視覚言語モデル(VLM)が表現に一貫して従うかどうかを評価することは困難である。
既存の標準化されたテキストおよび視覚的表記法を持つ4つのドメイン間で意味論的に等価な入力をペアリングするベンチマークSEAMを紹介する。
OCRベースの画像テキストペアリングとは対照的に、モダリティの異なる表記システムを利用することで、SEAMはVLMのテキスト-シンボル的および視覚-空間的推論能力の厳密な比較評価を提供する。
意味論的に等価な情報を含む問題にも拘わらず、視覚が言語を全般的に遅延させ、相互の合意は比較的低い。
我々の誤り分析では、ドメイン表記におけるトークン化によるテキスト認識障害と、幻覚を誘発する視覚知覚障害の2つの主要な要因が明らかになった。
また、この結果が視覚的変換に対して非常に堅牢であることも示しています。
SEAMは、モダリティに依存しない推論を計測し改善するための制御された意味論的に等価な設定を確立する。
関連論文リスト
- Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - PairBench: Are Vision-Language Models Reliable at Comparing What They See? [16.49586486795478]
タスクに応じて大規模視覚言語モデル(VLM)を自動評価するためのフレームワークであるPairBenchを提案する。
提案手法では,人間アノテーションとの整合性,ペアオーダ間の整合性,分散のスムーズさ,プロンプトによる可制御性という,信頼性の高い比較のための4つの重要な指標を導入している。
私たちの分析では、モデルがすべての指標を一貫して上回り、それぞれが異なる強みと弱みを示すことは明らかです。
論文 参考訳(メタデータ) (2025-02-21T04:53:11Z) - VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations [13.608653575298183]
本稿では、言語モデルの意味的および語彙的理解を評価するために設計されたVISLAベンチマークを紹介する。
34の視覚言語モデル (VLM) と20の単言語モデル (ULM) による評価は、語彙と意味のバリエーションを区別するのに驚くほど困難であることを示している。
論文 参考訳(メタデータ) (2024-04-25T07:08:00Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。