論文の概要: Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.03463v1
- Date: Wed, 03 Dec 2025 05:36:46 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:14.634319
- Title: Text-Printed Image: Bridging the Image-Text Modality Gap for Text-centric Training of Large Vision-Language Models
- Title(参考訳): テキストプリント画像:大規模視覚言語モデルのテキスト中心学習のための画像テキストモダリティギャップのブリッジ
- Authors: Shojiro Yamabe, Futa Waseda, Daiki Shiono, Tsubasa Takahashi,
- Abstract要約: テキスト中心のトレーニングは、テキスト記述のみが利用可能であり、実際の画像は提供されない設定である。
プライバシの制約やニッチドメインの不足によって収集が制限される画像とは異なり、テキストは広く利用することができる。
そこで,テキストプリント画像(TPI)を提案し,テキスト記述を直接白キャンバスに描画することで合成画像を生成する。
- 参考スコア(独自算出の注目度): 6.591422574318155
- License:
- Abstract: Recent large vision-language models (LVLMs) have been applied to diverse VQA tasks. However, achieving practical performance typically requires task-specific fine-tuning with large numbers of image-text pairs, which are costly to collect. In this work, we study text-centric training, a setting where only textual descriptions are available and no real images are provided, as a paradigm for low-cost data scaling. Unlike images, whose collection is often restricted by privacy constraints and scarcity in niche domains, text is widely available. Moreover, text is easily editable, enabling automatic diversification and expansion with LLMs at minimal human effort. While this offers clear advantages over image collection in terms of scalability and cost, training on raw text without images still yields limited gains on VQA tasks because of the image-text modality gap. To address this issue, we propose a Text-Printed Image (TPI), which generates synthetic images by directly rendering the given textual description on a plain white canvas. This simple rendering projects text into the image modality and can be integrated into arbitrary existing LVLM training pipelines at low cost. Moreover, TPI preserves the semantics of the text, whereas text-to-image models often fail to do. Across four models and seven benchmarks, our systematic experiments show that TPI enables more effective text-centric training than synthetic images generated by a diffusion model. We further explore TPI as a low-cost data-augmentation strategy and demonstrate its practical utility. Overall, our findings highlight the significant potential of text-centric training and, more broadly, chart a path toward fully automated data generation for LVLMs.
- Abstract(参考訳): 最近の大規模視覚言語モデル(LVLM)は様々なVQAタスクに適用されている。
しかし、現実的なパフォーマンスを達成するには、通常、大量の画像テキストペアによるタスク固有の微調整が必要であり、収集にコストがかかる。
本研究では,テキスト中心のトレーニング,テキスト記述のみが利用可能で,実際の画像が提供されない環境について,低コストなデータスケーリングのパラダイムとして検討する。
プライバシの制約やニッチドメインの不足によって収集が制限される画像とは異なり、テキストは広く利用可能である。
さらに、テキストの編集も容易で、人間の最小限の努力でLLMによる自動多様化と拡張が可能である。
これは、スケーラビリティとコストの観点からは、画像収集よりも明確な利点を提供するが、画像のない生のテキストでのトレーニングは、画像-テキストのモダリティのギャップのため、VQAタスクにおいて限られた利益をもたらす。
この問題に対処するために,所与のテキスト記述を直接白キャンバスに描画することで,合成画像を生成するテキストプリント画像(TPI)を提案する。
この単純なレンダリングは、テキストを画像のモダリティに投影し、任意の既存のLVLMトレーニングパイプラインに低コストで組み込むことができる。
さらに、TPIはテキストのセマンティクスを保存するが、テキスト・ツー・イメージのモデルは多くの場合失敗する。
4つのモデルと7つのベンチマークから,TPIは拡散モデルにより生成された合成画像よりも効果的なテキスト中心のトレーニングを可能にすることを示す。
さらに,TPIを低コストなデータ拡張戦略として検討し,その実用性を実証する。
全体として、本研究はテキスト中心のトレーニングの大きな可能性を浮き彫りにして、より広範に、LVLMの完全自動データ生成への道筋を図っている。
関連論文リスト
- EDITOR: Effective and Interpretable Prompt Inversion for Text-to-Image Diffusion Models [41.63451923844824]
本稿では,テキストから画像への拡散モデルに対するsysと呼ばれるプロンプトインバージョン手法を提案する。
本手法は,画像の類似性,テキストのアライメント,解釈可能性,一般化可能性の観点から,既存の手法よりも優れる。
論文 参考訳(メタデータ) (2025-06-03T16:44:15Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。