論文の概要: FlashClear: Ultra-Fast Image Content Removal via Efficient Step Distillation and Feature Caching
- arxiv url: http://arxiv.org/abs/2605.09003v2
- Date: Tue, 12 May 2026 06:32:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.941486
- Title: FlashClear: Ultra-Fast Image Content Removal via Efficient Step Distillation and Feature Caching
- Title(参考訳): FlashClear: 効率的なステップ蒸留と特徴キャッシングによる超高速画像削除
- Authors: Yixin Tang, Jiawei Guo, Junxian Li, Zhiteng Li, Jixin Zhao, Bingya Zhang, Chenbo Wang, Yulun Zhang, Shangchen Zhou,
- Abstract要約: 拡散に基づくオブジェクト除去モデルは、すべてのタイムステップで全てのトークンを無差別にデノベートし、除去は通常小さな前景領域を含むことを無視する。
本稿では,領域認識型適応蒸留 (RAD) を実装するための潜在判別器を提案し,FlashClear という高効率な数ステップモデルを提案する。
さらに,FPAC (Foreground-Prioritized Asymmetric Attention and Caching) は,FPAC (Foreground-Prioritized Asymmetric Attention and Caching) を学習不要な加速戦略として提案する。
- 参考スコア(独自算出の注目度): 37.33145382932306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, diffusion-based object removal models have achieved impressive results in eliminating objects and their associated visual effects. However, they indiscriminately denoise all tokens across all timesteps, ignoring that removal usually involves small foreground regions. This strategy introduces substantial computational overhead and prolonged inference times. To overcome this computational burden, we propose a latent discriminator to implement Region-aware Adversarial Distillation (RAD), yielding a highly efficient few-step model named FlashClear. Furthermore, tailored to few-step diffusion models, we propose FPAC (Foreground-Prioritized Asymmetric Attention and Caching), a training-free acceleration strategy. Extensive experiments demonstrate that our framework provides massive acceleration while maintaining or exceeding the performance of our base model, ObjectClear. Notably, on the OBER benchmark, our FlashClear achieves up to 8.26$\times$ and 122$\times$ speedup over ObjectClear and OmniPaint, respectively, while maintaining high visual quality and fidelity.
- Abstract(参考訳): 近年,拡散型物体除去モデルにより,物体とその関連視覚効果の除去が達成されている。
しかしながら、すべてのタイムステップにまたがる全てのトークンを無差別に識別し、除去は通常小さな前景領域を含むことを無視する。
この戦略は計算オーバーヘッドを大幅に増加させ、推論時間を長くする。
この計算負担を克服するため、我々は、領域認識型対数蒸留(RAD)を実装する潜在判別器を提案し、FlashClearという名前の高効率な数ステップモデルを生成する。
さらに,FPAC (Foreground-Prioritized Asymmetric Attention and Caching) は,FPAC (Foreground-Prioritized Asymmetric Attention and Caching) を学習不要な加速戦略として提案する。
大規模な実験により、我々のフレームワークは、ベースモデルであるObjectClearの性能を維持したり、超えたりしながら、巨大な加速を提供します。
注目すべきは、OBERベンチマークにおいて、私たちのFlashClearは、高い視覚的品質と忠実さを維持しながら、ObjectClearとOmniPaintよりも最大8.26$\times$と122$\times$のスピードアップを実現しています。
関連論文リスト
- $D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation [72.9912717963138]
リモートセンシング画像からのリアルタイムで高忠実な単眼深度推定は、多くのアプリケーションにとって不可欠である。
視覚変換器(ViT)のバックボーンを高密度な予測に使用するのは速いが、知覚品質は低いことが多い。
リモートセンシング単眼深度推定のための深度詳細拡散法(D3$-RSMDE)を提案する。
D3$-RSMDEは、Learninged Perceptual Image Patch similarity (LPIPS)の知覚距離を11.85%削減する。
論文 参考訳(メタデータ) (2026-03-17T10:50:36Z) - TGM-VLA: Task-Guided Mixup for Sampling-Efficient and Robust Robotic Manipulation [42.52624620346963]
本稿では,モデル性能とトレーニング効率の両方を大幅に改善する,新しい包括的枠組みを提案する。
まず,サンプリング戦略の再設計と最適化を行い,メモリ消費を80%削減し,トレーニング速度を5倍に向上させた。
第二に,暗黒物体のあいまいさを解消する単純で効果的なモジュールであるカラー反転投影分岐を用いてモデルを強化する。
論文 参考訳(メタデータ) (2026-02-28T12:16:20Z) - Denoising as Path Planning: Training-Free Acceleration of Diffusion Models with DPCache [8.614492355393578]
本研究では,グローバルパス計画問題として拡散加速を定式化する学習自由加速フレームワークDPCacheを提案する。
DPCacheは動的プログラミングを使用して、トラジェクティブの忠実さを維持しながら、全体のパスコストを最小限に抑える、キータイムステップの最適なシーケンスを選択する。
DiT、FLUX、HunyuanVideoの実験では、DPCacheは最小品質の損失で強力な加速を実現している。
論文 参考訳(メタデータ) (2026-02-26T06:13:33Z) - Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。
視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。
実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文 参考訳(メタデータ) (2025-03-26T04:16:48Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。