論文の概要: Flux-Sculptor: Text-Driven Rich-Attribute Portrait Editing through Decomposed Spatial Flow Control
- arxiv url: http://arxiv.org/abs/2507.03979v1
- Date: Sat, 05 Jul 2025 10:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.958973
- Title: Flux-Sculptor: Text-Driven Rich-Attribute Portrait Editing through Decomposed Spatial Flow Control
- Title(参考訳): Flux-Sculptor:分解空間流制御によるテキスト駆動リッチ属性画像編集
- Authors: Tianyao He, Runqi Wang, Yang Chen, Dejia Song, Nemo Chen, Xu Tang, Yao Hu,
- Abstract要約: Flux-Sculptorは、正確なテキスト駆動のポートレート編集のために設計されたフラックスベースのフレームワークである。
本フレームワークでは,関連する編集領域を正確に識別するための空間ロケータ(PASL)を導入している。
実験により、Flux-Sculptorは、リッチ属性編集や顔情報保存において既存の手法を超越していることが示された。
- 参考スコア(独自算出の注目度): 24.057959328107387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven portrait editing holds significant potential for various applications but also presents considerable challenges. An ideal text-driven portrait editing approach should achieve precise localization and appropriate content modification, yet existing methods struggle to balance reconstruction fidelity and editing flexibility. To address this issue, we propose Flux-Sculptor, a flux-based framework designed for precise text-driven portrait editing. Our framework introduces a Prompt-Aligned Spatial Locator (PASL) to accurately identify relevant editing regions and a Structure-to-Detail Edit Control (S2D-EC) strategy to spatially guide the denoising process through sequential mask-guided fusion of latent representations and attention values. Extensive experiments demonstrate that Flux-Sculptor surpasses existing methods in rich-attribute editing and facial information preservation, making it a strong candidate for practical portrait editing applications. Project page is available at https://flux-sculptor.github.io/.
- Abstract(参考訳): テキスト駆動の肖像画編集は、様々なアプリケーションにとって大きな可能性を秘めている。
理想的なテキスト駆動のポートレート編集アプローチは、正確なローカライズと適切なコンテンツ修正を実現する必要があるが、既存の手法では、再構成の忠実さと編集の柔軟性のバランスがとれない。
この問題に対処するため,Flux-Sculptorを提案する。
本フレームワークでは,関連する編集領域を正確に識別するPrompt-Aligned Spatial Locator (PASL) と,遅延表現と注目値の逐次マスク誘導融合を通じて視覚過程を空間的にガイドするStructure-to-Detail Edit Control (S2D-EC) 戦略を導入する。
大規模な実験により、Flux-Sculptorはリッチ属性編集や顔情報保存の既存の手法を超越し、実用的な肖像画編集アプリケーションの候補となることが実証された。
プロジェクトページはhttps://flux-sculptor.github.io/.com/で公開されている。
関連論文リスト
- Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - Training-Free Text-Guided Image Editing with Visual Autoregressive Model [46.201510044410995]
本稿では,Visual AutoRegressive モデリングに基づく新しいテキスト誘導画像編集フレームワークを提案する。
本手法は, 正確かつ制御された修正を確実にしながら, 明示的な逆変換の必要性を解消する。
我々のフレームワークは、トレーニング不要な方法で動作し、高速な推論速度で高忠実度編集を実現する。
論文 参考訳(メタデータ) (2025-03-31T09:46:56Z) - DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - CA-Edit: Causality-Aware Condition Adapter for High-Fidelity Local Facial Attribute Editing [41.92598830147057]
データ駆動の観点から、属性テキストトリプルからなるデータセットを構築するために、新しいデータ利用戦略が導入された。
文脈因果関係の局所的モデリングのための皮膚遷移周波数誘導手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T07:33:22Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - MAG-Edit: Localized Image Editing in Complex Scenarios via Mask-Based
Attention-Adjusted Guidance [28.212908146852197]
我々は,複雑なシナリオにおける局所的な画像編集を可能にする,トレーニング不要な推論ステージ最適化手法であるMAG-Editを開発した。
特に、MAG-Editは2つのマスクベースのクロスアテンション制約を最大化することにより拡散モデルのノイズ潜時特性を最適化する。
論文 参考訳(メタデータ) (2023-12-18T17:55:44Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。