論文の概要: Adams Bashforth Moulton Solver for Inversion and Editing in Rectified Flow
- arxiv url: http://arxiv.org/abs/2503.16522v1
- Date: Mon, 17 Mar 2025 02:17:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:08.570807
- Title: Adams Bashforth Moulton Solver for Inversion and Editing in Rectified Flow
- Title(参考訳): Adams Bashforth Moulton Solver for Inversion and Editing in Rectified Flow (特集 バイオサイバネティックスとバイオサイバネティックス)
- Authors: Yongjia Ma, Donglin Di, Xuan Liu, Xiaokai Chen, Lei Fan, Wei Chen, Tonghua Su,
- Abstract要約: 既存の数値解法は高速サンプリングと高精度解のトレードオフに直面している。
本稿では,Adams-Bashforth-Moulton(ABM)予測器・コレクタ法を用いて,整流モデルにおけるODE解の精度を向上させることを提案する。
- 参考スコア(独自算出の注目度): 9.571291555989754
- License:
- Abstract: Rectified flow models have achieved remarkable performance in image and video generation tasks. However, existing numerical solvers face a trade-off between fast sampling and high-accuracy solutions, limiting their effectiveness in downstream applications such as reconstruction and editing. To address this challenge, we propose leveraging the Adams-Bashforth-Moulton (ABM) predictor-corrector method to enhance the accuracy of ODE solving in rectified flow models. Specifically, we introduce ABM-Solver, which integrates a multi step predictor corrector approach to reduce local truncation errors and employs Adaptive Step Size Adjustment to improve sampling speed. Furthermore, to effectively preserve non edited regions while facilitating semantic modifications, we introduce a Mask Guided Feature Injection module. We estimate self-similarity to generate a spatial mask that differentiates preserved regions from those available for editing. Extensive experiments on multiple high-resolution image datasets validate that ABM-Solver significantly improves inversion precision and editing quality, outperforming existing solvers without requiring additional training or optimization.
- Abstract(参考訳): 定形化フローモデルは、画像およびビデオ生成タスクにおいて顕著な性能を達成している。
しかし、既存の数値解法は、高速サンプリングと高精度解とのトレードオフに直面し、再構成や編集などの下流アプリケーションにおける有効性を制限している。
そこで本研究では,Adams-Bashforth-Moulton(ABM)予測器・コレクタ法を用いて,整流モデルにおけるODE解の精度を向上させることを提案する。
具体的には,複数のステップ予測器を組み込んだABM-Solverを導入し,局所的乱れ誤差を低減し,サンプリング速度を改善するためにAdaptive Step Size Adjustmentを採用している。
さらに,非編集領域を効果的に保存し,セマンティックな修正を容易にするため,Mask Guided Feature Injectionモジュールを導入する。
我々は,保存領域と編集可能な領域を区別する空間マスクを生成するために,自己相似性を推定する。
複数の高解像度画像データセットに対する大規模な実験により、ABM-Solverはインバージョン精度と編集品質を大幅に向上し、追加のトレーニングや最適化を必要とせずに既存のソルバよりも優れていることが確認された。
関連論文リスト
- Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Learning Where to Edit Vision Transformers [27.038720045544867]
コンピュータビジョンにおける視覚変換器(ViT)の編集のための位置情報編集手法を提案する。
我々はまず、CutMix拡張データ上でハイパーネットワークをメタラーニングすることで、位置から編集までの課題に対処する。
提案手法を検証するため, サブポピュレーションシフトを導入した編集ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-11-04T10:17:40Z) - PseudoNeg-MAE: Self-Supervised Point Cloud Learning using Conditional Pseudo-Negative Embeddings [55.55445978692678]
PseudoNeg-MAEは,ポイントマスク自動エンコーダのグローバルな特徴表現を強化する,自己教師型学習フレームワークである。
PseudoNeg-MAE は ModelNet40 と ScanObjectNN のデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-09-24T07:57:21Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - DPAdapter: Improving Differentially Private Deep Learning through Noise
Tolerance Pre-training [33.935692004427175]
DPAdapterは,パラメータのロバスト性を高め,DPMLアルゴリズムのモデル性能を向上する先駆的手法である。
我々の実験によると、DPAdapterは最先端のDPMLアルゴリズムを大幅に強化し、平均精度は72.92%から77.09%に向上している。
論文 参考訳(メタデータ) (2024-03-05T00:58:34Z) - Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation [49.827306773992376]
連続的テスト時間適応(CTTA)は、ソース事前学習モデルから目標分布の連続的な変化に移行するために提案される。
提案手法は,CTTAタスクの分類とセグメンテーションの両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T15:34:52Z) - Effective Real Image Editing with Accelerated Iterative Diffusion
Inversion [6.335245465042035]
現代の生成モデルで自然画像を編集し、操作することは依然として困難である。
逆安定性の問題に対処した既存のアプローチは、しばしば計算効率において大きなトレードオフをもたらす。
本稿では,空間および時間的複雑さの最小限のオーバーヘッドで再構成精度を大幅に向上させる,AIDIと呼ばれる高速化反復拡散インバージョン法を提案する。
論文 参考訳(メタデータ) (2023-09-10T01:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。