論文の概要: Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering
- arxiv url: http://arxiv.org/abs/2406.10208v2
- Date: Fri, 12 Jul 2024 16:26:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:27:56.929985
- Title: Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering
- Title(参考訳): Glyph-ByT5-v2: 高精度多言語ビジュアルテキストレンダリングのための強力な美的ベースライン
- Authors: Zeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Lin Liang, Lijuan Wang, Ji Li, Yuhui Yuan,
- Abstract要約: Glyph-ByT5はグラフィックデザイン画像における高精度な視覚テキストレンダリング性能を実現している。
現在でも英語のみに特化しており、視覚的魅力の面では比較的貧弱である。
Glyph-ByT5-v2 と Glyph-SDXL-v2 は 10 言語で正確なビジュアルテキストレンダリングをサポートする。
- 参考スコア(独自算出の注目度): 46.259028433965796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Glyph-ByT5 has achieved highly accurate visual text rendering performance in graphic design images. However, it still focuses solely on English and performs relatively poorly in terms of visual appeal. In this work, we address these two fundamental limitations by presenting Glyph-ByT5-v2 and Glyph-SDXL-v2, which not only support accurate visual text rendering for 10 different languages but also achieve much better aesthetic quality. To achieve this, we make the following contributions: (i) creating a high-quality multilingual glyph-text and graphic design dataset consisting of more than 1 million glyph-text pairs and 10 million graphic design image-text pairs covering nine other languages, (ii) building a multilingual visual paragraph benchmark consisting of 1,000 prompts, with 100 for each language, to assess multilingual visual spelling accuracy, and (iii) leveraging the latest step-aware preference learning approach to enhance the visual aesthetic quality. With the combination of these techniques, we deliver a powerful customized multilingual text encoder, Glyph-ByT5-v2, and a strong aesthetic graphic generation model, Glyph-SDXL-v2, that can support accurate spelling in 10 different languages. We perceive our work as a significant advancement, considering that the latest DALL-E3 and Ideogram 1.0 still struggle with the multilingual visual text rendering task.
- Abstract(参考訳): 近年,Glyph-ByT5はグラフィックデザイン画像における高精度な視覚テキストレンダリング性能を実現している。
しかし、それでも英語のみに焦点が当てられており、視覚的魅力の面では比較的貧弱である。
本稿では,Glyph-ByT5-v2 と Glyph-SDXL-v2 という2つの基本的制約に対処する。
これを達成するために、私たちは以下の貢献をしている。
(i)100万以上のグリフテキストペアと9つの他の言語をカバーする1000万のグラフィックデザインイメージテキストペアからなる高品質な多言語グリフテキストおよびグラフィックデザインデータセットを作成する。
二 言語ごとの100のプロンプトからなる多言語視覚段落ベンチマークを作成して、多言語視覚スペルの精度を評価すること。
3) 視覚美学の質を高めるために, 最新のステップアウェア優先学習アプローチを活用すること。
これらの技術を組み合わせることで、強力なカスタマイズされた多言語テキストエンコーダGlyph-ByT5-v2と、10言語で正確な綴りをサポートする強力な美的グラフィック生成モデルGlyph-SDXL-v2を提供する。
私たちは、最新のDALL-E3とIdeogram 1.0が、多言語のビジュアルテキストレンダリングタスクに苦戦していることを考慮し、我々の仕事を大きな進歩と見なしています。
関連論文リスト
- StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering [59.088036977605405]
ビジュアルテキストレンダリングは、テキストから画像生成モデルにとって根本的な課題である。
文字認識のBYT5エンコーダを微調整することで、一連のカスタマイズされたテキストエンコーダ、Glyph-ByT5を作成します。
本稿では,Glyph-ByT5をSDXLに統合する方法を提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:33Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation [1.9085074258303771]
我々は、シーンテキストをソース言語(例えばヒンディー語)からターゲット言語(例えば、英語)に視覚的に翻訳するタスクについて研究する。
視覚翻訳は、シーンテキストの認識と翻訳だけでなく、翻訳された画像の生成も含む。
本稿では、シーンテキスト認識、機械翻訳、シーンテキスト合成のための最先端モジュールを組み合わせた視覚翻訳のためのケースケードフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-06T05:23:25Z) - Changing the Representation: Examining Language Representation for
Neural Sign Language Production [43.45785951443149]
ニューラルサイン言語生産パイプラインの第1ステップに自然言語処理技術を適用した。
BERTやWord2Vecといった言語モデルを使って文レベルの埋め込みを改善する。
本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いることの利点を示す。
論文 参考訳(メタデータ) (2022-09-16T12:45:29Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。