論文の概要: SEED: A Benchmark Dataset for Sequential Facial Attribute Editing with Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.00562v1
- Date: Sat, 31 May 2025 13:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.198587
- Title: SEED: A Benchmark Dataset for Sequential Facial Attribute Editing with Diffusion Models
- Title(参考訳): SEED:拡散モデルを用いた逐次顔属性編集のためのベンチマークデータセット
- Authors: Yule Zhu, Ping Liu, Zhedong Zheng, Wei Liu,
- Abstract要約: 増え続けるアプリケーションのクラスは、プログレッシブ編集のシーケンスを分析し、追跡する機能を要求するようになった。
本稿では,最先端拡散モデルを用いて構築した大規模逐次編集facEデータセットSEEDを紹介する。
SEEDには90,000以上の顔画像と1~4つのシーケンシャルな属性修正が含まれており、多様な拡散ベースの編集パイプラインを使用して生成される。
- 参考スコア(独自算出の注目度): 23.54274625549125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently enabled precise and photorealistic facial editing across a wide range of semantic attributes. Beyond single-step modifications, a growing class of applications now demands the ability to analyze and track sequences of progressive edits, such as stepwise changes to hair, makeup, or accessories. However, sequential editing introduces significant challenges in edit attribution and detection robustness, further complicated by the lack of large-scale, finely annotated benchmarks tailored explicitly for this task. We introduce SEED, a large-scale Sequentially Edited facE Dataset constructed via state-of-the-art diffusion models. SEED contains over 90,000 facial images with one to four sequential attribute modifications, generated using diverse diffusion-based editing pipelines (LEdits, SDXL, SD3). Each image is annotated with detailed edit sequences, attribute masks, and prompts, facilitating research on sequential edit tracking, visual provenance analysis, and manipulation robustness assessment. To benchmark this task, we propose FAITH, a frequency-aware transformer-based model that incorporates high-frequency cues to enhance sensitivity to subtle sequential changes. Comprehensive experiments, including systematic comparisons of multiple frequency-domain methods, demonstrate the effectiveness of FAITH and the unique challenges posed by SEED. SEED offers a challenging and flexible resource for studying progressive diffusion-based edits at scale. Dataset and code will be publicly released at: https://github.com/Zeus1037/SEED.
- Abstract(参考訳): 拡散モデルは、最近、広範囲のセマンティック属性にまたがって、正確でフォトリアリスティックな顔編集を可能にした。
ワンステップ修正以外にも、毛髪や化粧品、アクセサリーの段階的な変更など、プログレッシブな編集のシーケンスを分析、追跡するアプリケーション群が増えている。
しかし、シーケンシャルな編集は、編集属性と検出ロバスト性において重大な課題をもたらし、このタスクのために明示的に調整された大規模で微妙な注釈付きベンチマークが欠如していることによりさらに複雑になる。
本稿では,最先端拡散モデルを用いて構築した大規模逐次編集facEデータセットSEEDを紹介する。
SEEDには90,000以上の顔画像と1~4つのシーケンシャルな属性修正が含まれており、多様な拡散ベースの編集パイプライン(LEdits, SDXL, SD3)を使用して生成される。
各画像には、詳細な編集シーケンス、属性マスク、プロンプトが付加され、シーケンシャルな編集追跡、視覚的証明分析、操作堅牢性評価の研究が促進される。
このタスクをベンチマークするために、高周波キューを組み込んだ周波数対応トランスフォーマーモデルFAITHを提案し、微妙なシーケンシャルな変化に対する感度を高める。
複数の周波数領域の手法の体系的比較を含む総合的な実験は、FAITHの有効性とSEEDがもたらす固有の課題を実証する。
SEEDは、進化的拡散に基づく編集を大規模に研究するための、挑戦的で柔軟なリソースを提供する。
データセットとコードは、https://github.com/Zeus1037/SEED.comで公開される。
関連論文リスト
- Disentangling Instruction Influence in Diffusion Transformers for Parallel Multi-Instruction-Guided Image Editing [26.02149948089938]
Instruction Influence Disentanglement (IID) は,複数命令の並列実行を可能にする新しいフレームワークである。
我々は、DiTにおける自己注意機構を分析し、各命令の影響を解消するために、命令固有の注意マスクを導出する。
IIDは、既存のベースラインと比較して、忠実度と命令完了性を改善しながら拡散ステップを削減する。
論文 参考訳(メタデータ) (2025-04-07T07:26:25Z) - Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。