Fugu-MT 論文翻訳(概要): Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

論文の概要: Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

arxiv url: http://arxiv.org/abs/2406.10208v2
Date: Fri, 12 Jul 2024 16:26:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 04:27:56.929985
Title: Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering
Title（参考訳）: Glyph-ByT5-v2: 高精度多言語ビジュアルテキストレンダリングのための強力な美的ベースライン
Authors: Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Lin Liang, Lijuan Wang, Ji Li, Yuhui Yuan,
Abstract要約: Glyph-ByT5はグラフィックデザイン画像における高精度な視覚テキストレンダリング性能を実現している。現在でも英語のみに特化しており、視覚的魅力の面では比較的貧弱である。 Glyph-ByT5-v2 と Glyph-SDXL-v2 は 10 言語で正確なビジュアルテキストレンダリングをサポートする。
参考スコア（独自算出の注目度）: 46.259028433965796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, Glyph-ByT5 has achieved highly accurate visual text rendering performance in graphic design images. However, it still focuses solely on English and performs relatively poorly in terms of visual appeal. In this work, we address these two fundamental limitations by presenting Glyph-ByT5-v2 and Glyph-SDXL-v2, which not only support accurate visual text rendering for 10 different languages but also achieve much better aesthetic quality. To achieve this, we make the following contributions: (i) creating a high-quality multilingual glyph-text and graphic design dataset consisting of more than 1 million glyph-text pairs and 10 million graphic design image-text pairs covering nine other languages, (ii) building a multilingual visual paragraph benchmark consisting of 1,000 prompts, with 100 for each language, to assess multilingual visual spelling accuracy, and (iii) leveraging the latest step-aware preference learning approach to enhance the visual aesthetic quality. With the combination of these techniques, we deliver a powerful customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in 10 different languages. We perceive our work as a significant advancement, considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the multilingual visual text rendering task.
Abstract（参考訳）: 近年,Glyph-ByT5はグラフィックデザイン画像における高精度な視覚テキストレンダリング性能を実現している。しかし、それでも英語のみに焦点が当てられており、視覚的魅力の面では比較的貧弱である。本稿では,Glyph-ByT5-v2 と Glyph-SDXL-v2 という2つの基本的制約に対処する。これを達成するために、私たちは以下の貢献をしている。 (i)100万以上のグリフテキストペアと9つの他の言語をカバーする1000万のグラフィックデザインイメージテキストペアからなる高品質な多言語グリフテキストおよびグラフィックデザインデータセットを作成する。二言語ごとの100のプロンプトからなる多言語視覚段落ベンチマークを作成して、多言語視覚スペルの精度を評価すること。 3) 視覚美学の質を高めるために, 最新のステップアウェア優先学習アプローチを活用すること。これらの技術を組み合わせることで、強力なカスタマイズされた多言語テキストエンコーダGlyph-ByT5-v2と、10言語で正確な綴りをサポートする強力な美的グラフィック生成モデルGlyph-SDXL-v2を提供する。私たちは、最新のDALL-E3とIdeogram 1.0が、多言語のビジュアルテキストレンダリングタスクに苦戦していることを考慮し、我々の仕事を大きな進歩と見なしています。

関連論文リスト

Qwen-Image Technical Report [86.46471547116158]
Qwen-Imageは複雑なテキストのレンダリングと正確な画像編集において大きな進歩を遂げた画像生成基盤モデルである。我々は、大規模なデータ収集、フィルタリング、アノテーション、合成、バランスを含む包括的なデータパイプラインを設計する。 Qwen-Imageは、英語のようなアルファベットの言語で非常によく機能し、中国語のようなより挑戦的なログラフ言語でも顕著な進歩を遂げている。
論文参考訳（メタデータ） (2025-08-04T11:49:20Z)
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。本稿では,文字位置の符号化と位置の符号化手法を提案する。我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文参考訳（メタデータ） (2025-05-30T09:55:39Z)
HDGlyph: A Hierarchical Disentangled Glyph-Based Framework for Long-Tail Text Rendering in Diffusion Models [20.543157470365315]
HDGlyphは、非テキスト視覚合成からテキスト生成を階層的に分離する新しいフレームワークである。私たちのモデルは、英語と中国語のテキストレンダリングで5.08%と11.7%の精度で、他のモデルよりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-10T07:05:43Z)
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model [69.09404597939744]
Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
論文参考訳（メタデータ） (2025-03-10T17:58:33Z)
Visual Lexicon: Rich Image Features in Language Space [99.94214846451347]
ViLexは、リッチなセマンティックコンテンツと詳細な視覚的詳細を同時にキャプチャする。 ViLexは、凍結されたテキスト・ツー・イメージ(T2I)拡散モデルを用いて入力画像の再構成に最適化されたトークンを生成する。言語空間に埋め込まれた画像として、ViLexトークンは自然言語の合成性を利用する。
論文参考訳（メタデータ） (2024-12-09T18:57:24Z)
AnyText2: Visual Text Generation and Editing With Customizable Attributes [10.24874245687826]
本稿では,自然シーン画像の生成と編集において,多言語テキスト属性を正確に制御する新しい手法であるAnyText2を紹介する。従来のAnyTextと比較して、私たちの新しいアプローチはイメージリアリズムを強化するだけでなく、推論速度の19.8%も向上します。 AnyTextの拡張として、この方法では、各行の属性をカスタマイズすることができ、それぞれ中国語と英語のテキスト精度が3.3%と9.3%向上した。
論文参考訳（メタデータ） (2024-11-22T03:31:56Z)
Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。 MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文参考訳（メタデータ） (2024-10-24T15:15:01Z)
Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models [38.52953013858373]
最新のテキスト・画像モデルであるPlayground v3(PGv3)を紹介します。複数のテストベンチマークで最先端(SoTA)パフォーマンスを実現している。テキストプロンプトの順守、複雑な推論、正確なテキストレンダリングが優れている。
論文参考訳（メタデータ） (2024-09-16T19:52:24Z)
StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。学習を通してStrucTexTv3の知覚と理解能力を高める。提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文参考訳（メタデータ） (2024-05-31T16:55:04Z)
Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering [59.088036977605405]
ビジュアルテキストレンダリングは、テキストから画像生成モデルにとって根本的な課題である。文字認識のBYT5エンコーダを微調整することで、一連のカスタマイズされたテキストエンコーダ、Glyph-ByT5を作成します。本稿では,Glyph-ByT5をSDXLに統合する方法を提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:33Z)
Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文参考訳（メタデータ） (2023-11-24T05:17:01Z)
AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。 AnyTextは複数の言語で文字を書くことができます。我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文参考訳（メタデータ） (2023-11-06T12:10:43Z)
UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。 Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文参考訳（メタデータ） (2021-04-01T08:30:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。