論文の概要: VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?
- arxiv url: http://arxiv.org/abs/2602.04802v1
- Date: Wed, 04 Feb 2026 17:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.664371
- Title: VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?
- Title(参考訳): VISTA-Bench:ヴィジュアライズされたテキストは純粋テキストと同じくらいよく理解されているか?
- Authors: Qing'an Liu, Juntong Feng, Yuhao Wang, Xinzhe Han, Yujie Cheng, Yue Zhu, Haiwen Diao, Yunzhi Zhuge, Huchuan Lu,
- Abstract要約: VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
- 参考スコア(独自算出の注目度): 51.02924254085878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved impressive performance in cross-modal understanding across textual and visual inputs, yet existing benchmarks predominantly focus on pure-text queries. In real-world scenarios, language also frequently appears as visualized text embedded in images, raising the question of whether current VLMs handle such input requests comparably. We introduce VISTA-Bench, a systematic benchmark from multimodal perception, reasoning, to unimodal understanding domains. It evaluates visualized text understanding by contrasting pure-text and visualized-text questions under controlled rendering conditions. Extensive evaluation of over 20 representative VLMs reveals a pronounced modality gap: models that perform well on pure-text queries often degrade substantially when equivalent semantic content is presented as visualized text. This gap is further amplified by increased perceptual difficulty, highlighting sensitivity to rendering variations despite unchanged semantics. Overall, VISTA-Bench provides a principled evaluation framework to diagnose this limitation and to guide progress toward more unified language representations across tokenized text and pixels. The source dataset is available at https://github.com/QingAnLiu/VISTA-Bench.
- Abstract(参考訳): VLM(Vision-Language Models)は、テキスト入力とビジュアル入力の相互理解において、優れたパフォーマンスを実現しているが、既存のベンチマークは主に純粋テキストクエリに焦点を当てている。
現実のシナリオでは、言語はしばしば画像に埋め込まれた可視化されたテキストとして現れ、現在のVLMがそのような入力要求を相互に扱うかどうかという疑問が提起される。
VISTA-Benchは、マルチモーダル認識、推論から一様理解領域への体系的ベンチマークである。
制御されたレンダリング条件下で、純粋テキストと可視化テキストの質問を対比することにより、可視化されたテキスト理解を評価する。
20以上の代表的VLMの広範囲な評価は、明らかなモダリティギャップを明らかにしている: 純粋テキストクエリでうまく機能するモデルは、等価なセマンティックコンテンツが視覚化されたテキストとして提示されたときに、大幅に劣化することが多い。
このギャップは知覚の難しさの増大によってさらに増幅され、意味論の相違にもかかわらず、レンダリングの変化に対する感受性が強調される。
全体として、VISTA-Benchは、この制限を診断し、トークン化されたテキストとピクセルをまたいだより統一された言語表現への進歩を導くための、原則化された評価フレームワークを提供する。
ソースデータセットはhttps://github.com/QingAnLiu/VISTA-Bench.comで公開されている。
関連論文リスト
- Seeing Through Words: Controlling Visual Retrieval Quality with Language Models [68.49490036960559]
本稿では,画像品質の明示的な概念を取り入れつつ,文脈的詳細で短いクエリを充実させる,品質制御可能な検索の新たなパラダイムを提案する。
我々のキーとなる考え方は、生成言語モデルをクエリ補完関数として活用し、未特定クエリを記述形式に拡張することです。
提案手法は,検索結果を大幅に改善し,最新のVLMの表現能力と,短いユーザクエリの未特定特性とのギャップを埋める,効果的な品質管理を提供する。
論文 参考訳(メタデータ) (2026-02-24T18:20:57Z) - Read or Ignore? A Unified Benchmark for Typographic-Attack Robustness and Text Recognition in Vision-Language Models [6.1438667397171685]
大型視覚言語モデル(LVLM)は、タイポグラフィー攻撃に対して脆弱である。
既存の評価プロトコルと防御は、頑健性を達成するためにテキストを無視することを暗黙的に奨励する。
本稿では,視覚的質問応答における選択的テキスト使用を形式化した読み書きVQA(RIO-VQA)を紹介する。
論文 参考訳(メタデータ) (2025-12-10T08:34:28Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - SAViL-Det: Semantic-Aware Vision-Language Model for Multi-Script Text Detection [4.013156524547072]
本稿では,多文テキスト検出機能を備えた意味認識型視覚言語モデルSAViL-Detを紹介する。
提案フレームワークは,テキストプロンプトから視覚的特徴への微粒な意味情報を,モーダルな注意を通して適応的に伝達する。
挑戦的なベンチマークの実験では、提案手法の有効性が示されている。
論文 参考訳(メタデータ) (2025-07-27T09:16:39Z) - VidText: Towards Comprehensive Evaluation for Video Text Understanding [56.121054697977115]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models [0.4453962606945739]
本稿では,Large Vision-Language Models(VLM)の読解能力を評価するベンチマークであるReadBenchを紹介する。
ReadBenchは、既存のテキストのみのベンチマークからテキストのイメージにコンテキストを変換し、テキストのプロンプトや質問をそのまま保持する。
短いテキストイメージの入力では最小限のパフォーマンス劣化がみられ、長い複数ページのコンテキストでは性能が大幅に低下する。
論文 参考訳(メタデータ) (2025-05-25T11:02:01Z) - Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。