論文の概要: LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis
- arxiv url: http://arxiv.org/abs/2503.21749v1
- Date: Thu, 27 Mar 2025 17:56:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:20.433668
- Title: LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis
- Title(参考訳): LeX-Art: スケーラブルな高品質データ合成によるテキスト生成の再考
- Authors: Shitian Zhao, Qilong Wu, Xinyue Li, Bo Zhang, Ming Li, Qi Qin, Dongyang Liu, Kaipeng Zhang, Hongsheng Li, Yu Qiao, Peng Gao, Bin Fu, Zhen Li,
- Abstract要約: 高品質なテキスト画像合成のための総合的なスイートであるLeX-Artを紹介する。
当社のアプローチは,Deepseek-R1に基づく高品質なデータ合成パイプラインの構築という,データ中心のパラダイムに従っています。
我々は、堅牢なプロンプトエンリッチメントモデルであるLeX-Enhancerを開発し、LeX-FLUXとLeX-Luminaの2つのテキスト・ツー・イメージモデルを訓練する。
- 参考スコア(独自算出の注目度): 56.00885545573299
- License:
- Abstract: We introduce LeX-Art, a comprehensive suite for high-quality text-image synthesis that systematically bridges the gap between prompt expressiveness and text rendering fidelity. Our approach follows a data-centric paradigm, constructing a high-quality data synthesis pipeline based on Deepseek-R1 to curate LeX-10K, a dataset of 10K high-resolution, aesthetically refined 1024$\times$1024 images. Beyond dataset construction, we develop LeX-Enhancer, a robust prompt enrichment model, and train two text-to-image models, LeX-FLUX and LeX-Lumina, achieving state-of-the-art text rendering performance. To systematically evaluate visual text generation, we introduce LeX-Bench, a benchmark that assesses fidelity, aesthetics, and alignment, complemented by Pairwise Normalized Edit Distance (PNED), a novel metric for robust text accuracy evaluation. Experiments demonstrate significant improvements, with LeX-Lumina achieving a 79.81% PNED gain on CreateBench, and LeX-FLUX outperforming baselines in color (+3.18%), positional (+4.45%), and font accuracy (+3.81%). Our codes, models, datasets, and demo are publicly available.
- Abstract(参考訳): 本稿では,高画質テキスト画像合成のための総合的なスイートであるLeX-Artを紹介する。
われわれのアプローチはデータ中心のパラダイムに従い、Deepseek-R1に基づく高品質なデータ合成パイプラインを構築し、10Kの高解像度な1024$\times$1024画像のデータセットLeX-10Kをキュレートする。
データセット構築以外にも、堅牢なプロンプトエンリッチメントモデルであるLeX-Enhancerを開発し、LeX-FLUXとLeX-Luminaの2つのテキスト・ツー・イメージモデルをトレーニングし、最先端のテキストレンダリング性能を実現する。
Pairwise Normalized Edit Distance (PNED) を補完し, 忠実度, 審美性, 整合性を評価するベンチマークであるLeX-Benchを導入する。
LeX-LuminaはCreateBenchで79.81%のPNEDゲインを獲得し、LeX-FLUXはカラー(+3.18%)、位置(+4.45%)、フォント精度(+3.81%)でベースラインを上回った。
私たちのコード、モデル、データセット、デモが公開されています。
関連論文リスト
- RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
マルチモーダルなインターリーブド文書など、ペアリングされていない膨大な量のデータが、視覚言語表現学習に使われていない。
高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。
そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。
リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを3つのスケールで構築する。
論文 参考訳(メタデータ) (2025-02-18T03:58:38Z) - SynthVLM: High-Efficiency and High-Quality Synthetic Data for Vision Language Models [39.21242589835842]
本稿では,画像キャプチャペアを生成するための新しいデータ合成とキュレーション手法であるSynthVLMを紹介する。
SynthVLMのパワーを実証するため,SynthVLM-100Kを導入した。
モデルと人両方の評価において、SynthVLM-100Kは従来の実世界のデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-07-30T11:57:40Z) - RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning [69.23782518456932]
Retrieval-Enhanced Test-Time Adaptation (RETTA) と呼ばれる新しいゼロショットビデオキャプションフレームワークを提案する。
一般的なビデオテキスト検索モデルXCLIP、一般的な画像テキストマッチングモデルCLIP、テキストアライメントモデルAnglE、テキスト生成モデルGPT-2の4つのキーモデルを用いてビデオとテキストをブリッジする。
そこで本研究では,GPT-2,XCLIP,CLIP,AnglEの4つのフリーズモデルにおいて,学習可能なトークンを通信媒体として用いることを提案する。
論文 参考訳(メタデータ) (2024-05-11T16:22:00Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with
Human Feedback [31.230023678131843]
FigCaps-HFは、新しいフィギュアキャプション生成フレームワークである。
本フレームワークは,1) 図形選択ペアの品質を評価するための自動手法,2) 人物フィードバックを用いた新しい強化学習(RLHF) により,読取者の好みに応じて生成図形選択モデルを最適化する。
論文 参考訳(メタデータ) (2023-07-20T13:40:22Z) - RTMV: A Ray-Traced Multi-View Synthetic Dataset for Novel View Synthesis [104.53930611219654]
約2000の複雑なシーンからレンダリングされた300k画像からなる,新しいビュー合成のための大規模合成データセットを提案する。
データセットは、新しいビュー合成のための既存の合成データセットよりも桁違いに大きい。
高品質な3Dメッシュの4つのソースを使用して、私たちのデータセットのシーンは、カメラビュー、照明、形状、材料、テクスチャの難しいバリエーションを示します。
論文 参考訳(メタデータ) (2022-05-14T13:15:32Z) - NeX: Real-time View Synthesis with Neural Basis Expansion [1.471992435706872]
本論文では,多面画像(MPI)の拡張に基づく新しい視点合成手法であるNeXについて述べる。
本手法は,各画素をニューラルネットワークから学習した基底関数の線形結合としてパラメータ化することにより,ビュー依存効果をモデル化する。
論文 参考訳(メタデータ) (2021-03-09T18:27:27Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。