論文の概要: Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
- arxiv url: http://arxiv.org/abs/2503.07703v1
- Date: Mon, 10 Mar 2025 17:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:44:02.820677
- Title: Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model
- Title(参考訳): Seedream 2.0: 中国語と英語のバイリンガル画像生成モデル
- Authors: Lixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang,
- Abstract要約: Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。
中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。
テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
- 参考スコア(独自算出の注目度): 69.09404597939744
- License:
- Abstract: Rapid advancement of diffusion models has catalyzed remarkable progress in the field of image generation. However, prevalent models such as Flux, SD3.5 and Midjourney, still grapple with issues like model bias, limited text rendering capabilities, and insufficient understanding of Chinese cultural nuances. To address these limitations, we present Seedream 2.0, a native Chinese-English bilingual image generation foundation model that excels across diverse dimensions, which adeptly manages text prompt in both Chinese and English, supporting bilingual image generation and text rendering. We develop a powerful data system that facilitates knowledge integration, and a caption system that balances the accuracy and richness for image description. Particularly, Seedream is integrated with a self-developed bilingual large language model as a text encoder, allowing it to learn native knowledge directly from massive data. This enable it to generate high-fidelity images with accurate cultural nuances and aesthetic expressions described in either Chinese or English. Beside, Glyph-Aligned ByT5 is applied for flexible character-level text rendering, while a Scaled ROPE generalizes well to untrained resolutions. Multi-phase post-training optimizations, including SFT and RLHF iterations, further improve the overall capability. Through extensive experimentation, we demonstrate that Seedream 2.0 achieves state-of-the-art performance across multiple aspects, including prompt-following, aesthetics, text rendering, and structural correctness. Furthermore, Seedream 2.0 has been optimized through multiple RLHF iterations to closely align its output with human preferences, as revealed by its outstanding ELO score. In addition, it can be readily adapted to an instruction-based image editing model, such as SeedEdit, with strong editing capability that balances instruction-following and image consistency.
- Abstract(参考訳): 拡散モデルの急速な進歩は、画像生成の分野で顕著な進歩をもたらした。
しかし、Flux、SD3.5、Midjourneyといった一般的なモデルは、モデルバイアス、限られたテキストレンダリング能力、中国の文化的ニュアンスに対する理解の不十分といった問題に悩まされている。
これらの制約に対処するため、中国語と英語の双方でテキストプロンプトを積極的に管理し、バイリンガル画像生成とテキストレンダリングをサポートする中国語と英語のバイリンガル画像生成基盤モデルであるSeedream 2.0を提案する。
我々は,知識統合を容易にする強力なデータシステムと,画像記述の精度と豊かさのバランスをとるキャプションシステムを開発する。
特にSeedreamは、テキストエンコーダとして、自己発達したバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
これにより、正確な文化的ニュアンスと、中国語または英語で記述された美的表現で高忠実な画像を生成することができる。
一方、Glyph-Aligned ByT5は柔軟な文字レベルのテキストレンダリングに適用され、Scaled ROPEは訓練されていない解像度によく一般化される。
SFTとRLHFの反復を含むマルチフェーズのポストトレーニング最適化により、全体的な性能が向上した。
広範囲な実験を通じて,Seedream 2.0は,プロンプトフォロー,美学,テキストレンダリング,構造的正確性など,さまざまな面で最先端のパフォーマンスを実現していることを示す。
さらに、Seedream 2.0は複数のRLHFイテレーションを通じて最適化され、出力を人間の好みと密に一致させている。
さらに、SeedEditのような命令ベースの画像編集モデルに容易に適用でき、命令追従と画像一貫性のバランスをとる強力な編集機能を持つ。
関連論文リスト
- Visual Lexicon: Rich Image Features in Language Space [99.94214846451347]
ViLexは、リッチなセマンティックコンテンツと詳細な視覚的詳細を同時にキャプチャする。
ViLexは、凍結されたテキスト・ツー・イメージ(T2I)拡散モデルを用いて入力画像の再構成に最適化されたトークンを生成する。
言語空間に埋め込まれた画像として、ViLexトークンは自然言語の合成性を利用する。
論文 参考訳(メタデータ) (2024-12-09T18:57:24Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - Text Image Generation for Low-Resource Languages with Dual Translation Learning [0.0]
本研究では,高リソース言語からの実際のテキスト画像のスタイルをエミュレートすることで,低リソース言語でテキスト画像を生成する手法を提案する。
このモデルのトレーニングには、2つの翻訳タスクが含まれており、平易なテキストイメージを合成または実際のテキストイメージに変換する。
生成したテキスト画像の精度と多様性を高めるために,2つのガイダンス手法を導入する。
論文 参考訳(メタデータ) (2024-09-26T11:23:59Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Reason out Your Layout: Evoking the Layout Master from Large Language
Models for Text-to-Image Synthesis [47.27044390204868]
本稿では,レイアウト生成器としてLarge Language Models (LLM) を用いたT2I拡散モデルの改良手法を提案する。
実験により,画像の画質とレイアウト精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-11-28T14:51:13Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。