論文の概要: Emergence of Text Readability in Vision Language Models
- arxiv url: http://arxiv.org/abs/2506.19389v1
- Date: Tue, 24 Jun 2025 07:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.540553
- Title: Emergence of Text Readability in Vision Language Models
- Title(参考訳): 視覚言語モデルにおけるテキスト可読性の出現
- Authors: Jaeyoo Park, Sanghyuk Chun, Wonjae Kim, Sangdoo Yun, Bohyung Han,
- Abstract要約: VLM(Vision-Language Models)のトレーニング中に画像内のテキストコンテンツを認識する能力がどのように現れるかを検討する。
画像中のテキスト情報を読み取る能力は、かなりの訓練を繰り返した後、突然現れる。
この遅延は、コントラスト学習が最初に一般的な意味理解を優先し、後にテキスト固有の記号処理が発達する傾向を反映している可能性がある。
- 参考スコア(独自算出の注目度): 69.10470691283281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate how the ability to recognize textual content within images emerges during the training of Vision-Language Models (VLMs). Our analysis reveals a critical phenomenon: the ability to read textual information in a given image \textbf{(text readability)} emerges abruptly after substantial training iterations, in contrast to semantic content understanding which develops gradually from the early stages of training. This delayed emergence may reflect how contrastive learning tends to initially prioritize general semantic understanding, with text-specific symbolic processing developing later. Interestingly, the ability to match images with rendered text develops even slower, indicating a deeper need for semantic integration. These findings highlight the need for tailored training strategies to accelerate robust text comprehension in VLMs, laying the groundwork for future research on optimizing multimodal learning.
- Abstract(参考訳): 視覚言語モデル(VLM)の訓練において,画像内のテキストコンテンツを認識する能力がどのように出現するかを検討する。
我々の分析では,与えられた画像のテキスト情報を読み取る能力は,訓練の初期段階から徐々に発達する意味的内容理解とは対照的に,実質的な訓練を繰り返した後に突然出現する,という重要な現象を明らかにした。
この遅延は、コントラスト学習が最初に一般的な意味理解を優先し、後にテキスト固有の記号処理が発達する傾向を反映している可能性がある。
興味深いことに、画像とレンダリングされたテキストとをマッチングする機能は、さらに遅くなり、セマンティックな統合がより必要になることを示している。
これらの知見は、VLMにおける堅牢なテキスト理解を促進するための調整されたトレーニング戦略の必要性を浮き彫りにして、マルチモーダル学習の最適化に向けた今後の研究の基礎を築いた。
関連論文リスト
- Improving Fine-grained Visual Understanding in VLMs through Text-Only Training [0.0]
テキストのみの学習を通して視覚言語モデル(VLM)におけるきめ細かい視覚的理解を高める可能性について検討する。
我々は2つの異なる領域、細粒度の種分類と文化的な視覚的理解タスクについて包括的な実験を行った。
その結果,テキストのみのトレーニングは従来の画像テキスト学習に匹敵するが,計算コストは大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2024-12-17T14:18:50Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。