論文の概要: VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?
- arxiv url: http://arxiv.org/abs/2602.04802v1
- Date: Wed, 04 Feb 2026 17:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.664371
- Title: VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?
- Title(参考訳): VISTA-Bench:ヴィジュアライズされたテキストは純粋テキストと同じくらいよく理解されているか?
- Authors: Qing'an Liu, Juntong Feng, Yuhao Wang, Xinzhe Han, Yujie Cheng, Yue Zhu, Haiwen Diao, Yunzhi Zhuge, Huchuan Lu,
- Abstract要約: VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
- 参考スコア(独自算出の注目度): 51.02924254085878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved impressive performance in cross-modal understanding across textual and visual inputs, yet existing benchmarks predominantly focus on pure-text queries. In real-world scenarios, language also frequently appears as visualized text embedded in images, raising the question of whether current VLMs handle such input requests comparably. We introduce VISTA-Bench, a systematic benchmark from multimodal perception, reasoning, to unimodal understanding domains. It evaluates visualized text understanding by contrasting pure-text and visualized-text questions under controlled rendering conditions. Extensive evaluation of over 20 representative VLMs reveals a pronounced modality gap: models that perform well on pure-text queries often degrade substantially when equivalent semantic content is presented as visualized text. This gap is further amplified by increased perceptual difficulty, highlighting sensitivity to rendering variations despite unchanged semantics. Overall, VISTA-Bench provides a principled evaluation framework to diagnose this limitation and to guide progress toward more unified language representations across tokenized text and pixels. The source dataset is available at https://github.com/QingAnLiu/VISTA-Bench.
- Abstract(参考訳): VLM(Vision-Language Models)は、テキスト入力とビジュアル入力の相互理解において、優れたパフォーマンスを実現しているが、既存のベンチマークは主に純粋テキストクエリに焦点を当てている。
現実のシナリオでは、言語はしばしば画像に埋め込まれた可視化されたテキストとして現れ、現在のVLMがそのような入力要求を相互に扱うかどうかという疑問が提起される。
VISTA-Benchは、マルチモーダル認識、推論から一様理解領域への体系的ベンチマークである。
制御されたレンダリング条件下で、純粋テキストと可視化テキストの質問を対比することにより、可視化されたテキスト理解を評価する。
20以上の代表的VLMの広範囲な評価は、明らかなモダリティギャップを明らかにしている: 純粋テキストクエリでうまく機能するモデルは、等価なセマンティックコンテンツが視覚化されたテキストとして提示されたときに、大幅に劣化することが多い。
このギャップは知覚の難しさの増大によってさらに増幅され、意味論の相違にもかかわらず、レンダリングの変化に対する感受性が強調される。
全体として、VISTA-Benchは、この制限を診断し、トークン化されたテキストとピクセルをまたいだより統一された言語表現への進歩を導くための、原則化された評価フレームワークを提供する。
ソースデータセットはhttps://github.com/QingAnLiu/VISTA-Bench.comで公開されている。
関連論文リスト
- SAViL-Det: Semantic-Aware Vision-Language Model for Multi-Script Text Detection [4.013156524547072]
本稿では,多文テキスト検出機能を備えた意味認識型視覚言語モデルSAViL-Detを紹介する。
提案フレームワークは,テキストプロンプトから視覚的特徴への微粒な意味情報を,モーダルな注意を通して適応的に伝達する。
挑戦的なベンチマークの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2025-07-27T09:16:39Z) - VidText: Towards Comprehensive Evaluation for Video Text Understanding [56.121054697977115]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models [0.4453962606945739]
本稿では,Large Vision-Language Models(VLM)の読解能力を評価するベンチマークであるReadBenchを紹介する。
ReadBenchは、既存のテキストのみのベンチマークからテキストのイメージにコンテキストを変換し、テキストのプロンプトや質問をそのまま保持する。
短いテキストイメージの入力では最小限のパフォーマンス劣化がみられ、長い複数ページのコンテキストでは性能が大幅に低下する。
論文 参考訳(メタデータ) (2025-05-25T11:02:01Z) - Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。