論文の概要: DeepInv: A Novel Self-supervised Learning Approach for Fast and Accurate Diffusion Inversion
- arxiv url: http://arxiv.org/abs/2601.01487v1
- Date: Sun, 04 Jan 2026 11:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.435124
- Title: DeepInv: A Novel Self-supervised Learning Approach for Fast and Accurate Diffusion Inversion
- Title(参考訳): DeepInv: 高速かつ正確な拡散インバージョンのための自己教師型学習手法
- Authors: Ziyue Zhang, Luxi Lin, Xiaolin Hu, Chao Chang, HuaiXi Wang, Yiyi Zhou, Rongrong Ji,
- Abstract要約: 拡散インバージョンは、実行可能な監視信号が欠如しているため、難しい課題である。
本稿では,Deep Inversion(DeepInv)と呼ばれる自己教師付き拡散インバージョン手法を提案する。
DeepInvはまた、パラメータ化インバージョンソルバをトレーニングするための反復的かつマルチスケールのトレーニングシステムも備えている。
- 参考スコア(独自算出の注目度): 65.5172878666262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion inversion is a task of recovering the noise of an image in a diffusion model, which is vital for controllable diffusion image editing. At present, diffusion inversion still remains a challenging task due to the lack of viable supervision signals. Thus, most existing methods resort to approximation-based solutions, which however are often at the cost of performance or efficiency. To remedy these shortcomings, we propose a novel self-supervised diffusion inversion approach in this paper, termed Deep Inversion (DeepInv). Instead of requiring ground-truth noise annotations, we introduce a self-supervised objective as well as a data augmentation strategy to generate high-quality pseudo noises from real images without manual intervention. Based on these two innovative designs, DeepInv is also equipped with an iterative and multi-scale training regime to train a parameterized inversion solver, thereby achieving the fast and accurate image-to-noise mapping. To the best of our knowledge, this is the first attempt of presenting a trainable solver to predict inversion noise step by step. The extensive experiments show that our DeepInv can achieve much better performance and inference speed than the compared methods, e.g., +40.435% SSIM than EasyInv and +9887.5% speed than ReNoise on COCO dataset. Moreover, our careful designs of trainable solvers can also provide insights to the community. Codes and model parameters will be released in https://github.com/potato-kitty/DeepInv.
- Abstract(参考訳): 拡散インバージョンは拡散モデルにおける画像のノイズを回復させるタスクであり、これは拡散画像編集の制御に不可欠である。
現在、拡散インバージョンは、実行可能な監視信号が欠如しているため、依然として困難な課題である。
したがって、既存のほとんどの手法は近似に基づく解に頼っているが、性能や効率の犠牲になることが多い。
本稿では,これらの欠点を解決するために,Deep Inversion(DeepInv)と呼ばれる自己教師付き拡散インバージョン手法を提案する。
手動で介入することなく、実画像から高品質な擬似雑音を生成するための、自己教師対象とデータ拡張戦略を導入する。
この2つの革新的な設計に基づいて、DeepInvはパラメータ化インバージョンソルバを訓練するための反復的かつマルチスケールのトレーニングシステムを備えており、高速で正確な画像-ノイズマッピングを実現する。
我々の知る限りでは、この手法はインバージョンノイズを段階的に予測する訓練可能な解法を初めて提示する試みである。
大規模な実験により、私たちのDeepInvは比較した方法よりもはるかに優れたパフォーマンスと推論速度を達成できることが示された。例えば、EasyInvよりも+40.435% SSIM、COCOデータセットのReNoiseよりも+9887.5% SSIMである。
さらに、トレーニング可能な問題解決者の注意深い設計も、コミュニティに洞察を与えることができます。
コードとモデルパラメータはhttps://github.com/potato-kitty/DeepInv.comでリリースされる。
関連論文リスト
- Lightweight and Accurate Multi-View Stereo with Confidence-Aware Diffusion Model [81.01939699480094]
本稿では,MVSに拡散モデルを導入する新しいMVSフレームワークを提案する。
深度推定の識別特性を考慮し,拡散過程を導出する条件エンコーダを設計する。
本稿では,新しいMVSフレームワークであるDiffMVSとCasMVSの2つの新しいMVS手法を提案する。
論文 参考訳(メタデータ) (2025-09-18T17:59:19Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Blind Image Restoration via Fast Diffusion Inversion [17.139433082780037]
Blind Image Restoration via fast Diffusion (BIRD) は、劣化モデルパラメータと復元画像の協調最適化を行うブラインド赤外線法である。
提案手法の鍵となる考え方は、初期ノイズがサンプリングされると、逆サンプリングを変更すること、すなわち、中間潜水剤を全て変更しないことである。
画像復元作業におけるBIRDの有効性を実験的に検証し,それらすべてに対して,その成果が得られたことを示す。
論文 参考訳(メタデータ) (2024-05-29T23:38:12Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Lightning-Fast Image Inversion and Editing for Text-to-Image Diffusion Models [46.729930784279645]
暗黙の方程式の根を求めることによって問題を定式化し,効率よく解ける手法を考案する。
我々の解法は、数値解析においてよく知られた手法であるNewton-Raphson (NR) に基づいている。
希少物体の画像および生成における改善された結果を示す。
論文 参考訳(メタデータ) (2023-12-19T19:19:19Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。