論文の概要: SeedEdit 3.0: Fast and High-Quality Generative Image Editing
- arxiv url: http://arxiv.org/abs/2506.05083v2
- Date: Fri, 06 Jun 2025 13:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.08462
- Title: SeedEdit 3.0: Fast and High-Quality Generative Image Editing
- Title(参考訳): SeedEdit 3.0: 高速かつ高品質な生成イメージ編集
- Authors: Peng Wang, Yichun Shi, Xiaochen Lian, Zhonghua Zhai, Xin Xia, Xuefeng Xiao, Weilin Huang, Jianchao Yang,
- Abstract要約: 我々は,私たちのT2IモデルであるSeedream 3.0とともにSeedEdit 3.0を紹介します。
メタインフォパラダイムとメタインフォ埋め込み戦略を用いた拡張データキュレーションパイプラインを開発した。
テストベンチマークでSeedEdit 3.0を評価し、実/合成画像編集を行い、複数の面のトレードオフを最大限に達成し、56.1%のユーザビリティを実現した。
- 参考スコア(独自算出の注目度): 29.062311145515967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SeedEdit 3.0, in companion with our T2I model Seedream 3.0, which significantly improves over our previous SeedEdit versions in both aspects of edit instruction following and image content (e.g., ID/IP) preservation on real image inputs. Additional to model upgrading with T2I, in this report, we present several key improvements. First, we develop an enhanced data curation pipeline with a meta-info paradigm and meta-info embedding strategy that help mix images from multiple data sources. This allows us to scale editing data effectively, and meta information is helpfult to connect VLM with diffusion model more closely. Second, we introduce a joint learning pipeline for computing a diffusion loss and reward losses. Finally, we evaluate SeedEdit 3.0 on our testing benchmarks, for real/synthetic image editing, where it achieves a best trade-off between multiple aspects, yielding a high usability rate of 56.1%, compared to SeedEdit 1.6 (38.4%), GPT4o (37.1%) and Gemini 2.0 (30.3%).
- Abstract(参考訳): 本稿では,T2IモデルであるSeedream 3.0とともにSeedEdit 3.0を紹介した。SeedEdit 3.0は,既存のSeedEditバージョンよりも,実際の画像入力における画像コンテンツ(例えば,ID/IP)保存の両面で大幅に改善されている。
T2Iによるモデルアップグレードに加えて、本報告では、いくつかの重要な改善点を提示する。
まず,複数のデータソースからの画像を混在させるメタインフォパラダイムとメタインフォ埋め込み戦略を備えた拡張データキュレーションパイプラインを開発する。
これにより、編集データを効果的にスケールすることができ、メタ情報はVLMと拡散モデルをより緊密に接続するのに役立ちます。
第2に,拡散損失と報酬損失を計算するための共同学習パイプラインを導入する。
最後に、テストベンチマークでSeedEdit 3.0を評価し、実/合成画像編集において、SeedEdit 1.6 (38.4%)、GPT4o (37.1%)、Gemini 2.0 (30.3%)と比較して56.1%という高いユーザビリティ率で、複数の面の最良のトレードオフを達成する。
関連論文リスト
- GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset [31.986549060226594]
GPT-IMAGE-EDIT-1.5Mは、150万以上の高品質のトリプル(インストラクション、ソースイメージ、編集画像)を含む、一般公開された大規模画像編集コーパスである。
我々は、GPT-4oの汎用機能を活用して、OmniEdit、HQ-Edit、UltraEditという3つの一般的な画像編集データセットを統合し、洗練することで、このデータセットを構築する。
我々は,GPT-IMAGE-EDIT-1.5M上で,高度なオープンソースモデルを微調整した。
論文 参考訳(メタデータ) (2025-07-28T17:54:04Z) - Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [32.33777277141083]
我々は,7種類の画像編集タスクをシームレスに処理できる全能なエディタであるomnieditを提案する。
omnieditは7つの異なるスペシャリストモデルの監督を利用して、タスクカバレッジを確保することで訓練される。
当社のモデルが野生のどんな画像でも扱えるように、アスペクト比の異なる画像を提供しています。
論文 参考訳(メタデータ) (2024-11-11T18:21:43Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。