論文の概要: Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation
- arxiv url: http://arxiv.org/abs/2502.14846v1
- Date: Thu, 20 Feb 2025 18:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:36.335474
- Title: Scaling Text-Rich Image Understanding via Code-Guided Synthetic Multimodal Data Generation
- Title(参考訳): Code-Guided Synthetic Multimodal Data Generationによるテキストリッチ画像のスケーリング
- Authors: Yue Yang, Ajay Patel, Matt Deitke, Tanmay Gupta, Luca Weihs, Andrew Head, Mark Yatskar, Chris Callison-Burch, Ranjay Krishna, Aniruddha Kembhavi, Christopher Clark,
- Abstract要約: CoSynは、合成テキストリッチマルチモーダルデータを作成するフレームワークである。
高品質な命令チューニングデータを生成することができる。
また、合成ポインティングデータを生成し、視覚言語モデルで入力画像内の情報をグラウンドできる。
- 参考スコア(独自算出の注目度): 79.71072337496351
- License:
- Abstract: Reasoning about images with rich text, such as charts and documents, is a critical application of vision-language models (VLMs). However, VLMs often struggle in these domains due to the scarcity of diverse text-rich vision-language data. To address this challenge, we present CoSyn, a framework that leverages the coding capabilities of text-only large language models (LLMs) to automatically create synthetic text-rich multimodal data. Given input text describing a target domain (e.g., "nutrition fact labels"), CoSyn prompts an LLM to generate code (Python, HTML, LaTeX, etc.) for rendering synthetic images. With the underlying code as textual representations of the synthetic images, CoSyn can generate high-quality instruction-tuning data, again relying on a text-only LLM. Using CoSyn, we constructed a dataset comprising 400K images and 2.7M rows of vision-language instruction-tuning data. Comprehensive experiments on seven benchmarks demonstrate that models trained on our synthetic data achieve state-of-the-art performance among competitive open-source models, including Llama 3.2, and surpass proprietary models such as GPT-4V and Gemini 1.5 Flash. Furthermore, CoSyn can produce synthetic pointing data, enabling VLMs to ground information within input images, showcasing its potential for developing multimodal agents capable of acting in real-world environments.
- Abstract(参考訳): グラフや文書などのリッチテキストによる画像の推論は、視覚言語モデル(VLM)の重要な応用である。
しかしながら、VLMは様々なテキストリッチな視覚言語データが不足しているため、これらの領域でしばしば苦労する。
この課題に対処するために,テキストのみの大規模言語モデル(LLM)のコーディング機能を活用して,合成テキストリッチなマルチモーダルデータを自動的に生成するフレームワークであるCoSynを提案する。
ターゲットドメイン(例えば「栄養ファクトラベル」など)を記述する入力テキストが与えられた場合、CoSynはLLMに合成画像を描画するためのコード(Python、HTML、LaTeXなど)を生成するよう促す。
基盤となるコードを合成画像のテキスト表現として使用することにより、CoSynはテキストのみのLLMに依存する高品質な命令チューニングデータを生成することができる。
CoSynを用いて400K画像と2.7M行の視覚言語学習データからなるデータセットを構築した。
7つのベンチマークに関する総合的な実験では、Llama 3.2を含む競合するオープンソースモデルの間で、我々の合成データに基づいてトレーニングされたモデルが最先端のパフォーマンスを達成し、GPT-4VやGemini 1.5 Flashといったプロプライエタリモデルを上回ることが示されている。
さらに、CoSynは合成ポインティングデータを生成し、VLMが入力画像内の情報を接地し、実際の環境で動作可能なマルチモーダルエージェントを開発する可能性を示す。
関連論文リスト
- RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
マルチモーダルなインターリーブド文書など、ペアリングされていない膨大な量のデータが、視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを3つのスケールで構築する。
論文 参考訳(メタデータ) (2025-02-18T03:58:38Z) - mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data [71.352883755806]
マルチモーダル埋め込みモデルは、テキストや画像などの様々なモダリティからデータを統一表現空間にマッピングする能力において、大きな注目を集めている。
しかし、ラベル付きマルチモーダルデータは、しばしば埋め込み性能を妨げる。
近年のアプローチでは、この問題に対処するためにデータ合成を活用しているが、合成データの質は依然として重大なボトルネックとなっている。
論文 参考訳(メタデータ) (2025-02-12T15:03:33Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models [39.21242589835842]
本稿では,画像キャプチャペアを生成するための新しいデータ合成とキュレーション手法であるSynthVLMを紹介する。
SynthVLMのパワーを実証するため,SynthVLM-100Kを導入した。
モデルと人両方の評価において、SynthVLM-100Kは従来の実世界のデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-07-30T11:57:40Z) - ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis [6.066100464517522]
我々は,5つの異なるメディア組織から得られた70K以上のサンプルを含む,高レベルのcOntext Representationデータセットを用いた抽象ニュースキャプションを紹介する。
提案手法は,LLM生成した被写体重みを利用して,合成画像中の重要被写体を選択的に表現し,拡張するものである。
また、ANCHORの現在のT2Iベースラインよりも優れたカスタムドメインファインチューニングにより、ニュース画像やキャプションのドメイン分布にも適応する。
論文 参考訳(メタデータ) (2024-04-15T21:19:10Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。