論文の概要: Unite and Conquer: Cross Dataset Multimodal Synthesis using Diffusion
Models
- arxiv url: http://arxiv.org/abs/2212.00793v1
- Date: Thu, 1 Dec 2022 18:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:30:12.579989
- Title: Unite and Conquer: Cross Dataset Multimodal Synthesis using Diffusion
Models
- Title(参考訳): Unite and Conquer:拡散モデルを用いたクロスデータセットマルチモーダル合成
- Authors: Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara and Vishal M.
Patel
- Abstract要約: 拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
- 参考スコア(独自算出の注目度): 54.1843419649895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating photos satisfying multiple constraints find broad utility in the
content creation industry. A key hurdle to accomplishing this task is the need
for paired data consisting of all modalities (i.e., constraints) and their
corresponding output. Moreover, existing methods need retraining using paired
data across all modalities to introduce a new condition. This paper proposes a
solution to this problem based on denoising diffusion probabilistic models
(DDPMs). Our motivation for choosing diffusion models over other generative
models comes from the flexible internal structure of diffusion models. Since
each sampling step in the DDPM follows a Gaussian distribution, we show that
there exists a closed-form solution for generating an image given various
constraints. Our method can unite multiple diffusion models trained on multiple
sub-tasks and conquer the combined task through our proposed sampling strategy.
We also introduce a novel reliability parameter that allows using different
off-the-shelf diffusion models trained across various datasets during sampling
time alone to guide it to the desired outcome satisfying multiple constraints.
We perform experiments on various standard multimodal tasks to demonstrate the
effectiveness of our approach. More details can be found in
https://nithin-gk.github.io/projectpages/Multidiff/index.html
- Abstract(参考訳): 複数の制約を満たす写真を生成することは、コンテンツ制作業界で幅広い有用性を見出す。
この課題を達成するための重要なハードルは、すべてのモダリティ(すなわち制約)と対応する出力からなるペアデータの必要性である。
さらに、既存のメソッドでは、新しい条件を導入するために、すべてのモダリティにまたがるペアデータの使用を再トレーニングする必要がある。
本稿では拡散確率モデル (DDPM) に基づくこの問題に対する解法を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造にある。
DDPMの各サンプリングステップはガウス分布に従うので、様々な制約を課した画像を生成するための閉形式解が存在することを示す。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを結合し,提案するサンプリング戦略により複合タスクを克服する。
また,複数の制約を満たす望ましい結果に導出するために,サンプリング時間のみに様々なデータセットでトレーニングされたオフ・ザ・シェルフ拡散モデルを使用することが可能な,新しい信頼性パラメータも導入する。
提案手法の有効性を実証するために,各種標準マルチモーダルタスクの実験を行った。
詳細はhttps://nithin-gk.github.io/projectpages/multidiff/index.htmlにある。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。
所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。
本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文 参考訳(メタデータ) (2024-08-27T14:25:42Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale [36.590918776922905]
本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。
統一的な視点に触発されたUniDiffuserは、元の拡散モデルに最小限の変更を加えながら、全ての分布を同時に学習する。
論文 参考訳(メタデータ) (2023-03-12T03:38:39Z) - Where to Diffuse, How to Diffuse, and How to Get Back: Automated
Learning for Multivariate Diffusions [22.04182099405728]
拡散に基づく生成モデル(DBGM)は、ターゲット雑音分布に摂動データを変換し、この推論拡散過程を逆にしてサンプルを生成する。
補助変数の数に対して、低いバウンドを最大化する方法を示す。
次に,特定対象雑音分布の拡散をパラメータ化する方法を示す。
論文 参考訳(メタデータ) (2023-02-14T18:57:04Z) - From Points to Functions: Infinite-dimensional Representations in
Diffusion Models [23.916417852496608]
拡散に基づく生成モデルは、非構造的雑音を複雑な対象分布に反復的に伝達することを学ぶ。
異なる時間ステップからの情報コンテンツを組み合わせることで、下流のタスクをより正確に表現できることが示される。
論文 参考訳(メタデータ) (2022-10-25T05:30:53Z) - Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。
拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文 参考訳(メタデータ) (2022-06-17T21:11:36Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。