論文の概要: SeedEdit 3.0: Fast and High-Quality Generative Image Editing
- arxiv url: http://arxiv.org/abs/2506.05083v2
- Date: Fri, 06 Jun 2025 13:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.08462
- Title: SeedEdit 3.0: Fast and High-Quality Generative Image Editing
- Title(参考訳): SeedEdit 3.0: 高速かつ高品質な生成イメージ編集
- Authors: Peng Wang, Yichun Shi, Xiaochen Lian, Zhonghua Zhai, Xin Xia, Xuefeng Xiao, Weilin Huang, Jianchao Yang,
- Abstract要約: 我々は,私たちのT2IモデルであるSeedream 3.0とともにSeedEdit 3.0を紹介します。
メタインフォパラダイムとメタインフォ埋め込み戦略を用いた拡張データキュレーションパイプラインを開発した。
テストベンチマークでSeedEdit 3.0を評価し、実/合成画像編集を行い、複数の面のトレードオフを最大限に達成し、56.1%のユーザビリティを実現した。
- 参考スコア(独自算出の注目度): 29.062311145515967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SeedEdit 3.0, in companion with our T2I model Seedream 3.0, which significantly improves over our previous SeedEdit versions in both aspects of edit instruction following and image content (e.g., ID/IP) preservation on real image inputs. Additional to model upgrading with T2I, in this report, we present several key improvements. First, we develop an enhanced data curation pipeline with a meta-info paradigm and meta-info embedding strategy that help mix images from multiple data sources. This allows us to scale editing data effectively, and meta information is helpfult to connect VLM with diffusion model more closely. Second, we introduce a joint learning pipeline for computing a diffusion loss and reward losses. Finally, we evaluate SeedEdit 3.0 on our testing benchmarks, for real/synthetic image editing, where it achieves a best trade-off between multiple aspects, yielding a high usability rate of 56.1%, compared to SeedEdit 1.6 (38.4%), GPT4o (37.1%) and Gemini 2.0 (30.3%).
- Abstract(参考訳): 本稿では,T2IモデルであるSeedream 3.0とともにSeedEdit 3.0を紹介した。SeedEdit 3.0は,既存のSeedEditバージョンよりも,実際の画像入力における画像コンテンツ(例えば,ID/IP)保存の両面で大幅に改善されている。
T2Iによるモデルアップグレードに加えて、本報告では、いくつかの重要な改善点を提示する。
まず,複数のデータソースからの画像を混在させるメタインフォパラダイムとメタインフォ埋め込み戦略を備えた拡張データキュレーションパイプラインを開発する。
これにより、編集データを効果的にスケールすることができ、メタ情報はVLMと拡散モデルをより緊密に接続するのに役立ちます。
第2に,拡散損失と報酬損失を計算するための共同学習パイプラインを導入する。
最後に、テストベンチマークでSeedEdit 3.0を評価し、実/合成画像編集において、SeedEdit 1.6 (38.4%)、GPT4o (37.1%)、Gemini 2.0 (30.3%)と比較して56.1%という高いユーザビリティ率で、複数の面の最良のトレードオフを達成する。
関連論文リスト
- Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。