論文の概要: Diffusion for Natural Image Matting
- arxiv url: http://arxiv.org/abs/2312.05915v1
- Date: Sun, 10 Dec 2023 15:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 18:04:10.434417
- Title: Diffusion for Natural Image Matting
- Title(参考訳): 自然画像マッティングのための拡散
- Authors: Yihan Hu, Yiheng Lin, Wei Wang, Yao Zhao, Yunchao Wei, Humphrey Shi
- Abstract要約: DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。
まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。
第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
- 参考スコア(独自算出の注目度): 93.86689168212241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We aim to leverage diffusion to address the challenging image matting task.
However, the presence of high computational overhead and the inconsistency of
noise sampling between the training and inference processes pose significant
obstacles to achieving this goal. In this paper, we present DiffMatte, a
solution designed to effectively overcome these challenges. First, DiffMatte
decouples the decoder from the intricately coupled matting network design,
involving only one lightweight decoder in the iterations of the diffusion
process. With such a strategy, DiffMatte mitigates the growth of computational
overhead as the number of samples increases. Second, we employ a self-aligned
training strategy with uniform time intervals, ensuring a consistent noise
sampling between training and inference across the entire time domain. Our
DiffMatte is designed with flexibility in mind and can seamlessly integrate
into various modern matting architectures. Extensive experimental results
demonstrate that DiffMatte not only reaches the state-of-the-art level on the
Composition-1k test set, surpassing the best methods in the past by 5% and 15%
in the SAD metric and MSE metric respectively, but also show stronger
generalization ability in other benchmarks.
- Abstract(参考訳): 我々は拡散を利用して、困難な画像マッチング課題に取り組むことを目指している。
しかし、高い計算オーバーヘッドの存在とトレーニングと推論プロセス間のノイズサンプリングの不整合は、この目標を達成する上で大きな障害となる。
本稿では,これらの課題を効果的に克服するソリューションであるdiffmatteを提案する。
まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。
このような戦略により、diffmatteはサンプル数の増加に伴って計算オーバーヘッドの増大を緩和する。
第2に,均一な時間間隔を持つ自己整合型トレーニング戦略を採用し,時間領域全体にわたるトレーニングと推論の一貫したノイズサンプリングを実現する。
我々のDiffMatteは柔軟性を念頭に設計されており、シームレスに様々なモダンなマッティングアーキテクチャに統合できます。
大規模な実験結果から,DiffMatteはコンポジション1kテストセットの最先端レベルに到達し,SAD測定値とMSE測定値でそれぞれ5%,15%のベストメソッドを上回り,他のベンチマークではより強力な一般化能力を示した。
関連論文リスト
- Consistency Diffusion Bridge Models [25.213664260896103]
拡散ブリッジモデル(DDBM)は、参照拡散プロセスに基づいて、固定データエンドポイント間でプロセスを構築する。
DDBMのサンプリングプロセスは通常、良好な性能を達成するために何百ものネットワーク評価を必要とする。
本稿では, DDBMに適用可能な整合性ブリッジ蒸留と整合性ブリッジ訓練の2つのパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-30T02:04:23Z) - Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。
物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。
我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文 参考訳(メタデータ) (2024-06-18T06:20:42Z) - Deep Data Consistency: a Fast and Robust Diffusion Model-based Solver for Inverse Problems [0.0]
本研究では,拡散モデルを用いた逆問題解法において,データ一貫性ステップをディープラーニングモデルで更新するディープデータ一貫性(DDC)を提案する。
線形および非線形タスクにおける最先端手法と比較して、DDCは類似度と実性の両方の指標の優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-17T12:54:43Z) - Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication Overlapping [14.435637320909663]
MoEテクニックは、DNNモデルパラメータのサイズを拡大する上で重要な役割を果たす。
既存の手法は、全てを専門家の計算でオーバーラップすることでこの問題を緩和しようとする。
本研究では,より広いトレーニンググラフレベルでのオーバーラップを考慮し,この課題の範囲を広げる。
コンパイラをベースとした最適化により,MoEモデルトレーニングを自動的に強化するシステムであるLancetにこれらの手法を実装した。
論文 参考訳(メタデータ) (2024-04-30T10:17:21Z) - Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。
モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文 参考訳(メタデータ) (2024-03-25T15:58:26Z) - The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。
ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。
Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文 参考訳(メタデータ) (2024-02-23T08:05:23Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。