論文の概要: Stable Score Distillation
- arxiv url: http://arxiv.org/abs/2507.09168v1
- Date: Sat, 12 Jul 2025 07:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:22.571321
- Title: Stable Score Distillation
- Title(参考訳): 安定スコア蒸留
- Authors: Haiming Zhu, Yangyang Xu, Chenshu Xu, Tingrui Shen, Wenxi Liu, Yong Du, Jun Yu, Shengfeng He,
- Abstract要約: 編集プロセスの安定性とアライメントを高めるための合理化フレームワークであるStable Score Distillation(SSD)を紹介する。
提案手法は,NeRFやテキスト駆動型スタイル編集を含む2次元および3次元の編集作業において,より高速な収束と複雑さの低減を実現している。
- 参考スコア(独自算出の注目度): 45.48460025487433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image and 3D editing have advanced with diffusion-based models, yet methods like Delta Denoising Score often struggle with stability, spatial control, and editing strength. These limitations stem from reliance on complex auxiliary structures, which introduce conflicting optimization signals and restrict precise, localized edits. We introduce Stable Score Distillation (SSD), a streamlined framework that enhances stability and alignment in the editing process by anchoring a single classifier to the source prompt. Specifically, SSD utilizes Classifier-Free Guidance (CFG) equation to achieves cross-prompt alignment, and introduces a constant term null-text branch to stabilize the optimization process. This approach preserves the original content's structure and ensures that editing trajectories are closely aligned with the source prompt, enabling smooth, prompt-specific modifications while maintaining coherence in surrounding regions. Additionally, SSD incorporates a prompt enhancement branch to boost editing strength, particularly for style transformations. Our method achieves state-of-the-art results in 2D and 3D editing tasks, including NeRF and text-driven style edits, with faster convergence and reduced complexity, providing a robust and efficient solution for text-guided editing.
- Abstract(参考訳): テキスト誘導画像と3D編集は拡散ベースのモデルで進歩しているが、Delta Denoising Scoreのような手法は安定性、空間制御、編集強度に悩まされることが多い。
これらの制限は、競合する最適化信号を導入し、正確な局所的な編集を制限する複雑な補助構造に依存している。
本稿では,1つの分類器をソースプロンプトに固定することで,編集プロセスの安定性とアライメントを向上させるための合理化フレームワークであるStable Score Distillation(SSD)を紹介する。
具体的には、分類自由誘導(CFG)方程式を用いてクロスプロンプトアライメントを実現し、最適化プロセスを安定化させるために一定項のヌルテキストブランチを導入する。
このアプローチは、元のコンテンツの構造を保ち、編集軌跡がソースプロンプトと密接に一致していることを保証するとともに、周辺地域の一貫性を維持しながら、スムーズで迅速な修正を可能にする。
さらにSSDには、特にスタイル変換において編集強度を高めるために、プロンプト拡張ブランチが組み込まれている。
提案手法は,NeRFやテキスト駆動型スタイル編集などの2Dおよび3D編集タスクにおいて,より高速な収束と複雑さの低減を実現し,テキストガイド編集のための堅牢で効率的なソリューションを提供する。
関連論文リスト
- FlowDirector: Training-Free Flow Steering for Precise Text-to-Video Editing [2.7248421583285265]
FlowDirectorは、新しいインバージョンフリーのビデオ編集フレームワークである。
我々のフレームワークは、編集プロセスをデータ空間の直接進化としてモデル化する。
局所的かつ制御可能な編集を実現するために,注意誘導型マスキング機構を導入する。
論文 参考訳(メタデータ) (2025-06-05T13:54:40Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。
本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。
提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文 参考訳(メタデータ) (2025-03-21T02:14:03Z) - Lost in Edits? A $λ$-Compass for AIGC Provenance [119.95562081325552]
本稿では,実測出力と操作された出力を頑健に識別し,識別する新しい潜在空間属性法を提案する。
LambdaTracerは、InstructPix2Pixのようなテキスト誘導編集ツールによって自動化されるか、Adobe Photoshopのような編集ソフトウェアで手動で実行されるか、様々な反復編集プロセスで有効である。
論文 参考訳(メタデータ) (2025-02-05T06:24:25Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - FlexiEdit: Frequency-Aware Latent Refinement for Enhanced Non-Rigid Editing [22.308638156328968]
DDIMはオリジナルのイメージのキー機能とレイアウトを維持するのに不可欠であり、制限に大きく貢献する。
DDIMラテントを精錬することでテキストプロンプト入力の忠実度を向上させるFlexiEditを導入する。
本手法は画像編集,特に複雑な非剛性編集における顕著な進歩を示す。
論文 参考訳(メタデータ) (2024-07-25T08:07:40Z) - E4C: Enhance Editability for Text-Based Image Editing by Harnessing Efficient CLIP Guidance [13.535394339438428]
拡散ベースの画像編集は、ソースイメージコンテンツを保存し、新しいコンテンツを生成したり、修正を加えたりする複合プロセスである。
テキストベースのtextbf 編集のための textbfCLIP 誘導によるゼロショット画像編集手法である textbfEnhance textbfEditability を提案する。
論文 参考訳(メタデータ) (2024-03-15T09:26:48Z) - Latent Inversion with Timestep-aware Sampling for Training-free Non-rigid Editing [56.536695050042546]
安定拡散を用いた非剛性編集のための学習自由アプローチを提案する。
提案手法は,テキスト最適化,潜時反転,タイムステップ対応テキストインジェクションサンプリングの3段階からなる。
本手法の有効性を,アイデンティティの保存,編集性,美的品質の観点から示す。
論文 参考訳(メタデータ) (2024-02-13T17:08:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。