論文の概要: SeedEdit 3.0: Fast and High-Quality Generative Image Editing
- arxiv url: http://arxiv.org/abs/2506.05083v1
- Date: Thu, 05 Jun 2025 14:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.756814
- Title: SeedEdit 3.0: Fast and High-Quality Generative Image Editing
- Title(参考訳): SeedEdit 3.0: 高速かつ高品質な生成イメージ編集
- Authors: Peng Wang, Yichun Shi, Xiaochen Lian, Zhonghua Zhai, Xin Xia, Xuefeng Xiao, Weilin Huang, Jianchao Yang,
- Abstract要約: 私たちは、私たちのT2IモデルであるSeedream 3.0[22]とともに、SeedEdit 3.0を紹介します。
メタインフォパラダイムとメタインフォ埋め込み戦略を用いた拡張データキュレーションパイプラインを開発した。
テストベンチマークでSeedEdit 3.0を評価したところ、実際の画像編集では、複数の側面間での最良のトレードオフを実現し、56.1%という高いユーザビリティを実現しています。
- 参考スコア(独自算出の注目度): 29.062311145515967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SeedEdit 3.0, in companion with our T2I model Seedream 3.0 [22], which significantly improves over our previous version [27] in both aspects of edit instruction following and image content (e.g., ID/IP) preservation on real image inputs. Additional to model upgrading with T2I, in this report, we present several key improvements. First, we develop an enhanced data curation pipeline with a meta-info paradigm and meta-info embedding strategy that help mix images from multiple data sources. This allows us to scale editing data effectively, and meta information is helpfult to connect VLM with diffusion model more closely. Second, we introduce a joint learning pipeline for computing a diffusion loss and a reward loss. Finally, we evaluate SeedEdit 3.0 on our testing benchmarks, for real image editing, where it achieves a best trade-off between multiple aspects, yielding a high usability rate of 56.1%, compared to SeedEdit 1.6 (38.4%), GPT4o (37.1%) and Gemini 2.0 (30.3%).
- Abstract(参考訳): 本稿では,T2IモデルであるSeedream 3.0[22]と合わせてSeedEdit 3.0を紹介した。
T2Iによるモデルアップグレードに加えて、本報告では、いくつかの重要な改善点を提示する。
まず,複数のデータソースからの画像を混在させるメタインフォパラダイムとメタインフォ埋め込み戦略を備えた拡張データキュレーションパイプラインを開発する。
これにより、編集データを効果的にスケールすることができ、メタ情報はVLMと拡散モデルをより緊密に接続するのに役立ちます。
第2に,拡散損失と報酬損失を計算するための共同学習パイプラインを導入する。
最後に、実画像編集のベンチマークでSeedEdit 3.0を評価し、SeedEdit 1.6 (38.4%)、GPT4o (37.1%)、Gemini 2.0 (30.3%)と比較して56.1%という高いユーザビリティ率が得られる。
関連論文リスト
- Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。