Fugu-MT 論文翻訳(概要): Cross-view Masked Diffusion Transformers for Person Image Synthesis

論文の概要: Cross-view Masked Diffusion Transformers for Person Image Synthesis

arxiv url: http://arxiv.org/abs/2402.01516v1
Date: Fri, 2 Feb 2024 15:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-05 14:26:34.466345
Title: Cross-view Masked Diffusion Transformers for Person Image Synthesis
Title（参考訳）: 人物画像合成のためのクロスビューマスク拡散トランス
Authors: Trung X. Pham, Zhang Kang, Chang D. Yoo
Abstract要約: X-MDPT (Cross-view Masked Diffusion Prediction Transformer) ポーズ誘導型画像生成のための新しい拡散モデルを提案する。 X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
参考スコア（独自算出の注目度）: 23.874327202264553
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present X-MDPT (Cross-view Masked Diffusion Prediction Transformers), a novel diffusion model designed for pose-guided human image generation. X-MDPT distinguishes itself by employing masked diffusion transformers that operate on latent patches, a departure from the commonly-used Unet structures in existing works. The model comprises three key modules: 1) a denoising diffusion Transformer, 2) an aggregation network that consolidates conditions into a single vector for the diffusion process, and 3) a mask cross-prediction module that enhances representation learning with semantic information from the reference image. X-MDPT demonstrates scalability, improving FID, SSIM, and LPIPS with larger models. Despite its simple design, our model outperforms state-of-the-art approaches on the DeepFashion dataset while exhibiting efficiency in terms of training parameters, training time, and inference speed. Our compact 33MB model achieves an FID of 7.42, surpassing a prior Unet latent diffusion approach (FID 8.07) using only $11\times$ fewer parameters. Our best model surpasses the pixel-based diffusion with $\frac{2}{3}$ of the parameters and achieves $5.43 \times$ faster inference.
Abstract（参考訳）: X-MDPT (Cross-view Masked Diffusion Prediction Transformers) は,ポーズ誘導型画像生成のための新しい拡散モデルである。 x-mdpt は潜伏パッチで動作するマスク拡散変圧器を採用しており、既存の作品で一般的に使用されている unet 構造から逸脱している。モデルは3つの主要なモジュールから構成される。 1) 拡散変圧器 2)拡散過程の条件を1つのベクトルに集約する集約ネットワーク、 3)参照画像からの意味情報による表現学習を強化するマスククロス予測モジュール。 X-MDPTは拡張性を示し、より大きなモデルでFID、SSIM、LPIPSを改善している。そのシンプルな設計にもかかわらず、我々のモデルはDeepFashionデータセットの最先端のアプローチよりも優れており、トレーニングパラメータ、トレーニング時間、推論速度の点で効率が良い。我々のコンパクト33MBモデルは7.42のFIDを達成し、Unet遅延拡散法(FID 8.07)をはるかに上回っている。我々の最良のモデルは、パラメータの$\frac{2}{3}$でピクセルベースの拡散を超え、5.43 \times$高速推論を達成する。

関連論文リスト

E-MD3C: Taming Masked Diffusion Transformers for Efficient Zero-Shot Object Customization [20.441652320245975]
E-MD3Cは、ゼロショットオブジェクト画像のカスタマイズのための非常に効率的なフレームワークである。リソース集約型Unetアーキテクチャに依存する以前の作業とは異なり、我々のアプローチでは軽量なマスク付き拡散トランスフォーマーを採用している。 E-MD3Cは、PSNR、FID、SSIM、LPIPSなどのメトリクスでVITON-HDデータセットの既存のアプローチより優れている。
論文参考訳（メタデータ） (2025-02-13T10:48:11Z)
SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文参考訳（メタデータ） (2025-01-08T18:52:03Z)
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model [101.65105730838346]
離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
論文参考訳（メタデータ） (2024-08-20T17:48:20Z)
Simplified and Generalized Masked Diffusion for Discrete Data [47.711583631408715]
離散データの生成モデリングのための自己回帰モデルの代替として、マスケッド拡散(または吸収拡散)が積極的に研究されている。本研究の目的は,マスク拡散モデルの潜在能力を最大限に活用する,シンプルで汎用的なフレームワークを提供することである。
論文参考訳（メタデータ） (2024-06-06T17:59:10Z)
SparseDM: Toward Sparse Efficient Diffusion Models [20.783533300147866]
拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。現状のトランスフォーマーに基づく拡散モデルを用いて行った4つのデータセット実験により,FIDを平均1.5だけ増加させながらMACを50ドル削減できることが実証された。
論文参考訳（メタデータ） (2024-04-16T10:31:06Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
DFormer: Diffusion-guided Transformer for Universal Image Segmentation [86.73405604947459]
提案したDFormerは,拡散モデルを用いて画像分割タスクをデノナイズプロセスとみなしている。我々のDFormerは、ランダムに生成されたマスクの集合から、マスクとそれに対応するカテゴリを直接予測します。我々のDFormerは、最近の拡散型汎光学分割法Pix2Seq-Dより優れており、MS COCO val 2017セットで3.6%向上している。
論文参考訳（メタデータ） (2023-06-06T06:33:32Z)
SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文参考訳（メタデータ） (2023-06-01T17:59:25Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
I$^2$SB: Image-to-Image Schr\"odinger Bridge [87.43524087956457]
Image-to-Image Schr"odinger Bridge (I$2$SB) は条件拡散モデルの新しいクラスである。 I$2$SB は、2つの与えられた分布間の非線形拡散過程を直接学習する。 I$2$SBは、より解釈可能な生成過程を持つ標準条件拡散モデルを超えることを示す。
論文参考訳（メタデータ） (2023-02-12T08:35:39Z)
Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling [23.164631160130092]
BERT型事前学習(仮面画像モデリング)の成功を畳み込みネットワーク(畳み込みネットワーク)に拡張する。我々は、3次元点雲のスパースボクセルとして非マス化画素を扱い、スパース畳み込みを用いてエンコードする。これは2次元マスクモデリングにおけるスパース畳み込みの最初の使用である。
論文参考訳（メタデータ） (2023-01-09T18:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。