論文の概要: Seedream 3.0 Technical Report
- arxiv url: http://arxiv.org/abs/2504.11346v2
- Date: Wed, 16 Apr 2025 16:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 11:15:10.943881
- Title: Seedream 3.0 Technical Report
- Title(参考訳): Seedream 3.0テクニカルレポート
- Authors: Yu Gao, Lixue Gong, Qiushan Guo, Xiaoxia Hou, Zhichao Lai, Fanshi Li, Liang Li, Xiaochen Lian, Chao Liao, Liyang Liu, Wei Liu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Rui Wang, Xuanda Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang,
- Abstract要約: Seedream 3.0は、高性能な中国語と英語のバイリンガル画像生成基盤モデルである。
Seedream 2.0の既存の課題に対処するために、いくつかの技術的改善を開発しています。
Seedream 3.0はネイティブな高解像度の出力(最大2K)を提供し、高画質の画像を生成する。
- 参考スコア(独自算出の注目度): 62.85849652170507
- License:
- Abstract: We present Seedream 3.0, a high-performance Chinese-English bilingual image generation foundation model. We develop several technical improvements to address existing challenges in Seedream 2.0, including alignment with complicated prompts, fine-grained typography generation, suboptimal visual aesthetics and fidelity, and limited image resolutions. Specifically, the advancements of Seedream 3.0 stem from improvements across the entire pipeline, from data construction to model deployment. At the data stratum, we double the dataset using a defect-aware training paradigm and a dual-axis collaborative data-sampling framework. Furthermore, we adopt several effective techniques such as mixed-resolution training, cross-modality RoPE, representation alignment loss, and resolution-aware timestep sampling in the pre-training phase. During the post-training stage, we utilize diversified aesthetic captions in SFT, and a VLM-based reward model with scaling, thereby achieving outputs that well align with human preferences. Furthermore, Seedream 3.0 pioneers a novel acceleration paradigm. By employing consistent noise expectation and importance-aware timestep sampling, we achieve a 4 to 8 times speedup while maintaining image quality. Seedream 3.0 demonstrates significant improvements over Seedream 2.0: it enhances overall capabilities, in particular for text-rendering in complicated Chinese characters which is important to professional typography generation. In addition, it provides native high-resolution output (up to 2K), allowing it to generate images with high visual quality.
- Abstract(参考訳): 本稿では,高性能な中国語バイリンガル画像生成基盤モデルSeedream 3.0を提案する。
Seedream 2.0の既存の課題に対処するために、複雑なプロンプト、きめ細かなタイポグラフィー生成、準最適視覚美学と忠実度、画像解像度の制限など、いくつかの技術的改善を行った。
具体的には、Seedream 3.0の進歩は、データ構築からモデルデプロイメントに至るまで、パイプライン全体の改善に起因している。
データ層では、欠陥認識トレーニングパラダイムと2軸コラボレーティブなデータサンプリングフレームワークを使用してデータセットを2倍にします。
さらに, 混合分解能トレーニング, クロスモーダルなRoPE, 配向アライメントの損失, および事前学習フェーズにおける分解能を考慮した時間ステップサンプリングなど, いくつかの効果的な手法を採用する。
トレーニング後の段階では,SFTにおける多彩な美的キャプションと,スケールを考慮したVLMベースの報酬モデルを用いて,人間の嗜好に適合したアウトプットを実現する。
さらに、Seedream 3.0は新たな加速パラダイムを開拓した。
画像品質を維持しつつ,一貫したノイズ予測と重要度を考慮した時間ステップサンプリングにより,4~8倍の高速化を実現した。
Seedream 3.0はSeedream 2.0よりも大幅に改善されている。
さらに、ネイティブな高解像度の出力(最大2K)を提供し、高画質の画像を生成することができる。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは、入力画像に正確に対応した高忠実度3Dメッシュを生成することができる新しい合理化形状拡散パラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部が強化され、入力画像に異常な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - DreamClear: High-Capacity Real-World Image Restoration with Privacy-Safe Dataset Curation [46.22939360256696]
我々は、革新的なデータキュレーションパイプラインであるGenIRと、最先端の拡散変換器(DiT)ベースの画像復元モデルであるDreamClearの2つの戦略を提案する。
我々の先駆的な貢献であるGenIRは、既存のデータセットの制限を克服するデュアルプロンプト学習パイプラインです。
DreamClear は DiT ベースの画像復元モデルである。テキスト・ツー・イメージ(T2I)拡散モデルの生成先行と,マルチモーダル大言語モデル(MLLM)の堅牢な知覚能力を利用して復元を実現する。
論文 参考訳(メタデータ) (2024-10-24T11:57:20Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。
バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文 参考訳(メタデータ) (2024-07-19T02:00:04Z) - Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。
本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。
我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文 参考訳(メタデータ) (2024-05-31T17:59:56Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - IT3D: Improved Text-to-3D Generation with Explicit View Synthesis [71.68595192524843]
本研究では、これらの問題に対処するために、明示的に合成されたマルチビュー画像を活用する新しい戦略を提案する。
我々のアプローチは、高画質画像を生成するために、LCDによって強化されたイメージ・ツー・イメージ・パイプラインを活用することである。
組込み判別器では、合成したマルチビュー画像は実データと見なされ、最適化された3Dモデルのレンダリングは偽データとして機能する。
論文 参考訳(メタデータ) (2023-08-22T14:39:17Z) - 3DGen: Triplane Latent Diffusion for Textured Mesh Generation [17.178939191534994]
三面体VAEは、テクスチャメッシュの潜時表現を学習し、条件拡散モデルが三面体の特徴を生成する。
このアーキテクチャは初めて、高品質なテクスチャ化された、3Dメッシュの条件付きおよび非条件生成を可能にする。
メッシュの品質とテクスチャ生成において、イメージコンディショニングと非コンディショナリ生成において、従来よりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-03-09T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。