Fugu-MT 論文翻訳(概要): Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation

論文の概要: Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation

arxiv url: http://arxiv.org/abs/2404.01050v1
Date: Mon, 1 Apr 2024 11:09:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-03 22:47:02.537107
Title: Drag Your Noise: Interactive Point-based Editing via Diffusion Semantic Propagation
Title（参考訳）: ノイズをドラッグする:拡散セマンティック・プロパゲーションによる対話的ポイントベース編集
Authors: Haofeng Liu, Chenshu Xu, Yifei Yang, Lihua Zeng, Shengfeng He,
Abstract要約: DragNoiseは、潜在マップを遡ることなく、堅牢で高速な編集を提供する。 U-Netのボトルネック機能は本質的にインタラクティブな編集に理想的な意味豊かな機能を持っている。 DragNoiseは、DragDiffusionと比較して最適化時間を50%以上削減し、優れた制御とセマンティック保持を実現している。
参考スコア（独自算出の注目度）: 30.737586652869457
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Point-based interactive editing serves as an essential tool to complement the controllability of existing generative models. A concurrent work, DragDiffusion, updates the diffusion latent map in response to user inputs, causing global latent map alterations. This results in imprecise preservation of the original content and unsuccessful editing due to gradient vanishing. In contrast, we present DragNoise, offering robust and accelerated editing without retracing the latent map. The core rationale of DragNoise lies in utilizing the predicted noise output of each U-Net as a semantic editor. This approach is grounded in two critical observations: firstly, the bottleneck features of U-Net inherently possess semantically rich features ideal for interactive editing; secondly, high-level semantics, established early in the denoising process, show minimal variation in subsequent stages. Leveraging these insights, DragNoise edits diffusion semantics in a single denoising step and efficiently propagates these changes, ensuring stability and efficiency in diffusion editing. Comparative experiments reveal that DragNoise achieves superior control and semantic retention, reducing the optimization time by over 50% compared to DragDiffusion. Our codes are available at https://github.com/haofengl/DragNoise.
Abstract（参考訳）: ポイントベースのインタラクティブ編集は、既存の生成モデルの制御性を補完する重要なツールである。同時作業であるDragDiffusionは、ユーザ入力に応じて拡散潜時マップを更新し、グローバル潜時マップの変更を引き起こす。その結果、オリジナルコンテンツの不正確な保存と、勾配の消失による編集が失敗する。対照的に、我々はDragNoiseを紹介し、潜在マップを遡ることなく、堅牢で高速な編集を提供する。 DragNoiseの中核となる理論的根拠は、各U-Netの予測ノイズ出力をセマンティックエディタとして利用することにある。第一に、U-Netのボトルネック特徴は本質的にインタラクティブな編集に理想的な意味豊かな特徴を持ち、第二に、認知過程の初期に確立されたハイレベルな意味論は、その後の段階において最小限の変動を示す。これらの知見を活用して、DragNoiseは拡散セマンティクスを1つの認知ステップで編集し、これらの変化を効率的に伝播させ、拡散編集の安定性と効率を確保する。比較実験により、DragNoiseはDragDiffusionに比べて50%以上の最適化時間を短縮し、優れた制御とセマンティック保持を実現することが明らかになった。私たちのコードはhttps://github.com/haofengl/DragNoise.comで公開されています。

関連論文リスト

DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。 DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文参考訳（メタデータ） (2025-03-18T06:49:51Z)
OmniPaint: Mastering Object-Oriented Editing via Disentangled Insertion-Removal Inpainting [54.525583840585305]
我々はオブジェクトの削除と挿入を相互依存プロセスとして再概念化する統合フレームワークであるOmniPaintを紹介した。我々の新しいCFDメトリクスは、コンテキスト整合性とオブジェクト幻覚の堅牢で参照不要な評価を提供する。
論文参考訳（メタデータ） (2025-03-11T17:55:27Z)
Noise Diffusion for Enhancing Semantic Faithfulness in Text-to-Image Synthesis [9.11767497956649]
本稿では,大規模視覚言語モデルの言語理解能力を活用して,初期雑音ラテントの最適化を導くことを提案する。本研究では,ノイズ拡散プロセスを導入し,雑音を更新し,分布の整合性を保ちながら意味的に忠実な画像を生成する。実験により,様々な拡散モデル間のセマンティックアライメントを一貫して強化し,本フレームワークの有効性と適応性を示した。
論文参考訳（メタデータ） (2024-11-25T15:40:47Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文参考訳（メタデータ） (2024-08-01T17:27:28Z)
COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。 COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-13T06:27:13Z)
FastDrag: Manipulate Anything in One Step [20.494157877241665]
本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。私たちのFastDragはDragBenchデータセットで検証されています。
論文参考訳（メタデータ） (2024-05-24T17:59:26Z)
GoodDrag: Towards Good Practices for Drag Editing with Diffusion Models [31.708968272342315]
ドラッグ編集の安定性と画質を向上させる新しい手法であるGoodDragを紹介する。 GoodDragは、拡散プロセス内のドラッグとdenoising操作を交換するAlDDフレームワークを導入した。また,精密な操作やアーチファクトの削減のために,開始点の本来の特徴を維持できる情報保存型動作監視操作を提案する。
論文参考訳（メタデータ） (2024-04-10T17:59:59Z)
Object-Centric Diffusion for Efficient Video Editing [64.71639719352636]
拡散ベースのビデオ編集は素晴らしい品質に達している。このようなソリューションは通常、時間的に整合性のあるフレームを生成するために重いメモリと計算コストを発生させる。品質を維持しつつ、大幅なスピードアップを可能にする修正を提案する。
論文参考訳（メタデータ） (2024-01-11T08:36:15Z)
Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。 InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文参考訳（メタデータ） (2023-12-07T18:58:27Z)
Speech Synthesis By Unrolling Diffusion Process using Neural Network Layers [3.2634122554914002]
UDPNetは音声合成における逆拡散過程を高速化する新しいアーキテクチャである。 UDPNetは、品質と効率の両面で最先端の手法を一貫して上回っていることを示す。これらの結果は、UDPNetをリアルタイム音声合成アプリケーションのための堅牢なソリューションとして位置づけている。
論文参考訳（メタデータ） (2023-09-18T10:35:27Z)
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文参考訳（メタデータ） (2023-07-05T16:43:56Z)
DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2023-06-26T06:04:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。