Fugu-MT 論文翻訳(概要): Diffusion for Natural Image Matting

論文の概要: Diffusion for Natural Image Matting

arxiv url: http://arxiv.org/abs/2312.05915v1
Date: Sun, 10 Dec 2023 15:28:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 18:04:10.434417
Title: Diffusion for Natural Image Matting
Title（参考訳）: 自然画像マッティングのための拡散
Authors: Yihan Hu, Yiheng Lin, Wei Wang, Yao Zhao, Yunchao Wei, Humphrey Shi
Abstract要約: DiffMatteは、画像マッチングの課題を克服するために設計されたソリューションである。まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。第2に、均一な時間間隔を持つ自己整合トレーニング戦略を採用し、時間領域全体にわたるトレーニングと推論の間に一貫したノイズサンプリングを確保する。
参考スコア（独自算出の注目度）: 93.86689168212241
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We aim to leverage diffusion to address the challenging image matting task. However, the presence of high computational overhead and the inconsistency of noise sampling between the training and inference processes pose significant obstacles to achieving this goal. In this paper, we present DiffMatte, a solution designed to effectively overcome these challenges. First, DiffMatte decouples the decoder from the intricately coupled matting network design, involving only one lightweight decoder in the iterations of the diffusion process. With such a strategy, DiffMatte mitigates the growth of computational overhead as the number of samples increases. Second, we employ a self-aligned training strategy with uniform time intervals, ensuring a consistent noise sampling between training and inference across the entire time domain. Our DiffMatte is designed with flexibility in mind and can seamlessly integrate into various modern matting architectures. Extensive experimental results demonstrate that DiffMatte not only reaches the state-of-the-art level on the Composition-1k test set, surpassing the best methods in the past by 5% and 15% in the SAD metric and MSE metric respectively, but also show stronger generalization ability in other benchmarks.
Abstract（参考訳）: 我々は拡散を利用して、困難な画像マッチング課題に取り組むことを目指している。しかし、高い計算オーバーヘッドの存在とトレーニングと推論プロセス間のノイズサンプリングの不整合は、この目標を達成する上で大きな障害となる。本稿では,これらの課題を効果的に克服するソリューションであるdiffmatteを提案する。まず、DiffMatteはデコーダを複雑な結合されたマッティングネットワーク設計から切り離し、拡散プロセスのイテレーションで1つの軽量デコーダだけを含む。このような戦略により、diffmatteはサンプル数の増加に伴って計算オーバーヘッドの増大を緩和する。第2に,均一な時間間隔を持つ自己整合型トレーニング戦略を採用し,時間領域全体にわたるトレーニングと推論の一貫したノイズサンプリングを実現する。我々のDiffMatteは柔軟性を念頭に設計されており、シームレスに様々なモダンなマッティングアーキテクチャに統合できます。大規模な実験結果から,DiffMatteはコンポジション1kテストセットの最先端レベルに到達し,SAD測定値とMSE測定値でそれぞれ5%,15%のベストメソッドを上回り,他のベンチマークではより強力な一般化能力を示した。

関連論文リスト

Ensemble-MIX: Enhancing Sample Efficiency in Multi-Agent RL Using Ensemble Methods [0.0]
マルチエージェント強化学習(MARL)法は,様々なマルチエージェントタスクにおいて最先端の結果を得た。しかし、MARLアルゴリズムは、単一のエージェントよりもはるかに多くの環境相互作用を必要とする。本稿では,分散された中央集権的批判と分散アンサンブル学習を組み合わせた新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-06-03T13:13:15Z)
Test-Time Scaling of Diffusion Models via Noise Trajectory Search [7.243632426715941]
我々は,デミキシングの中間段階において,極端時間と局所的なエクスプロイトをグローバルに探索する$epsilon$-greedy検索アルゴリズムを導入する。 EDMと安定拡散の実験は、クラス条件/テキスト-画像生成のための最先端スコアを明らかにする。
論文参考訳（メタデータ） (2025-05-24T19:13:29Z)
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
Learning Few-Step Diffusion Models by Trajectory Distribution Matching [18.229753357571116]
トラジェクティブ・ディストリビュータ・マッチング(TDM)は、トラジェクタ・マッチングとトラジェクタ・マッチングの強さを組み合わせた統合蒸留パラダイムである。我々は,学習目標を異なるステップで分離し,より調整可能なサンプリングを可能にする,サンプリングステップ対応の目標を開発する。我々のモデルであるTDMは、様々なバックボーン上で既存の手法よりも優れており、優れた品質を提供し、トレーニングコストを大幅に削減する。
論文参考訳（メタデータ） (2025-03-09T15:53:49Z)
Robust Representation Consistency Model via Contrastive Denoising [83.47584074390842]
ランダムな平滑化は、敵の摂動に対する堅牢性を証明する理論的保証を提供する。拡散モデルは、ノイズ摂動サンプルを浄化するためにランダムな平滑化に成功している。我々は,画素空間における拡散軌跡に沿った生成的モデリングタスクを,潜在空間における識別的タスクとして再構成する。
論文参考訳（メタデータ） (2025-01-22T18:52:06Z)
Consistency Diffusion Bridge Models [25.213664260896103]
拡散ブリッジモデル(DDBM)は、参照拡散プロセスに基づいて、固定データエンドポイント間でプロセスを構築する。 DDBMのサンプリングプロセスは通常、良好な性能を達成するために何百ものネットワーク評価を必要とする。本稿では, DDBMに適用可能な整合性ブリッジ蒸留と整合性ブリッジ訓練の2つのパラダイムを提案する。
論文参考訳（メタデータ） (2024-10-30T02:04:23Z)
Immiscible Diffusion: Accelerating Diffusion Training with Noise Assignment [56.609042046176555]
準最適雑音データマッピングは拡散モデルの遅い訓練につながる。物理学における不和性現象からインスピレーションを得て,不和性拡散を提案する。我々のアプローチは極めて単純で、各画像の拡散可能な領域を制限するために1行のコードしか必要としない。
論文参考訳（メタデータ） (2024-06-18T06:20:42Z)
Deep Data Consistency: a Fast and Robust Diffusion Model-based Solver for Inverse Problems [0.0]
本研究では,拡散モデルを用いた逆問題解法において,データ一貫性ステップをディープラーニングモデルで更新するディープデータ一貫性(DDC)を提案する。線形および非線形タスクにおける最先端手法と比較して、DDCは類似度と実性の両方の指標の優れた性能を示す。
論文参考訳（メタデータ） (2024-05-17T12:54:43Z)
Lancet: Accelerating Mixture-of-Experts Training via Whole Graph Computation-Communication Overlapping [14.435637320909663]
MoEテクニックは、DNNモデルパラメータのサイズを拡大する上で重要な役割を果たす。既存の手法は、全てを専門家の計算でオーバーラップすることでこの問題を緩和しようとする。本研究では,より広いトレーニンググラフレベルでのオーバーラップを考慮し,この課題の範囲を広げる。コンパイラをベースとした最適化により,MoEモデルトレーニングを自動的に強化するシステムであるLancetにこれらの手法を実装した。
論文参考訳（メタデータ） (2024-04-30T10:17:21Z)
Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction [31.503662384666274]
科学と工学において、ゴールは、ある画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定値から未知の画像を推測することである。モチベートされたスコアベース拡散モデルはその経験的成功により、画像再構成に先立って模範の印象的な候補として現れた。
論文参考訳（メタデータ） (2024-03-25T15:58:26Z)
The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling [78.6155095947769]
Skip-Tuningは、スキップ接続上でシンプルだが驚くほど効果的にトレーニング不要なチューニング方法である。 ImageNet 64 では 19 NFE (1.75) で事前訓練された EDM に対して100% FID の改善が可能である。 Skip-Tuningは画素空間におけるスコアマッチング損失を増加させる一方、特徴空間における損失は減少する。
論文参考訳（メタデータ） (2024-02-23T08:05:23Z)
Improving Adversarial Robustness of Masked Autoencoders via Test-time Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文参考訳（メタデータ） (2023-08-20T16:27:17Z)
Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文参考訳（メタデータ） (2023-04-10T17:54:38Z)
Scaling Multimodal Pre-Training via Cross-Modality Gradient Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。 CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文参考訳（メタデータ） (2022-11-03T18:12:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。