Fugu-MT 論文翻訳(概要): Unite and Conquer: Cross Dataset Multimodal Synthesis using Diffusion Models

論文の概要: Unite and Conquer: Cross Dataset Multimodal Synthesis using Diffusion Models

arxiv url: http://arxiv.org/abs/2212.00793v1
Date: Thu, 1 Dec 2022 18:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 16:30:12.579989
Title: Unite and Conquer: Cross Dataset Multimodal Synthesis using Diffusion Models
Title（参考訳）: Unite and Conquer:拡散モデルを用いたクロスデータセットマルチモーダル合成
Authors: Nithin Gopalakrishnan Nair, Wele Gedara Chaminda Bandara and Vishal M. Patel
Abstract要約: 拡散確率モデル(DDPM)に基づく解を提案する。他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
参考スコア（独自算出の注目度）: 54.1843419649895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating photos satisfying multiple constraints find broad utility in the content creation industry. A key hurdle to accomplishing this task is the need for paired data consisting of all modalities (i.e., constraints) and their corresponding output. Moreover, existing methods need retraining using paired data across all modalities to introduce a new condition. This paper proposes a solution to this problem based on denoising diffusion probabilistic models (DDPMs). Our motivation for choosing diffusion models over other generative models comes from the flexible internal structure of diffusion models. Since each sampling step in the DDPM follows a Gaussian distribution, we show that there exists a closed-form solution for generating an image given various constraints. Our method can unite multiple diffusion models trained on multiple sub-tasks and conquer the combined task through our proposed sampling strategy. We also introduce a novel reliability parameter that allows using different off-the-shelf diffusion models trained across various datasets during sampling time alone to guide it to the desired outcome satisfying multiple constraints. We perform experiments on various standard multimodal tasks to demonstrate the effectiveness of our approach. More details can be found in https://nithin-gk.github.io/projectpages/Multidiff/index.html
Abstract（参考訳）: 複数の制約を満たす写真を生成することは、コンテンツ制作業界で幅広い有用性を見出す。この課題を達成するための重要なハードルは、すべてのモダリティ(すなわち制約)と対応する出力からなるペアデータの必要性である。さらに、既存のメソッドでは、新しい条件を導入するために、すべてのモダリティにまたがるペアデータの使用を再トレーニングする必要がある。本稿では拡散確率モデル (DDPM) に基づくこの問題に対する解法を提案する。他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造にある。 DDPMの各サンプリングステップはガウス分布に従うので、様々な制約を課した画像を生成するための閉形式解が存在することを示す。提案手法は,複数のサブタスクで訓練された複数の拡散モデルを結合し,提案するサンプリング戦略により複合タスクを克服する。また,複数の制約を満たす望ましい結果に導出するために,サンプリング時間のみに様々なデータセットでトレーニングされたオフ・ザ・シェルフ拡散モデルを使用することが可能な,新しい信頼性パラメータも導入する。提案手法の有効性を実証するために,各種標準マルチモーダルタスクの実験を行った。詳細はhttps://nithin-gk.github.io/projectpages/multidiff/index.htmlにある。

関連論文リスト

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文参考訳（メタデータ） (2025-06-09T16:20:20Z)
Bridging the inference gap in Mutimodal Variational Autoencoders [6.246098300155483]
マルチモーダル変分オートエンコーダは、観測されたモダリティから観測されていないモダリティを生成するための多目的でスケーラブルな方法を提供する。エキスパートの混合集合を用いた最近のモデルは、複雑なデータセットにおける生成品質を制限する理論的に基礎的な制限に悩まされている。本稿では,混合アグリゲーションを導入することなく,結合分布と条件分布の両方を学習できる新しい解釈可能なモデルを提案する。
論文参考訳（メタデータ） (2025-02-06T10:43:55Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文参考訳（メタデータ） (2024-08-27T14:25:42Z)
Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文参考訳（メタデータ） (2023-09-29T03:24:24Z)
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model [56.03464169048182]
既存のテキストビデオ検索ソリューションは、条件付き可能性、すなわちp(candidates|query)の最大化に焦点を当てている。我々は、このタスクを生成的視点から創造的に取り組み、テキストとビデオの相関関係を共同確率p(candidates,query)としてモデル化する。これは拡散に基づくテキストビデオ検索フレームワーク(DiffusionRet)によって実現され、ノイズから徐々に関節分布を生成するプロセスとして検索タスクをモデル化する。
論文参考訳（メタデータ） (2023-03-17T10:07:19Z)
One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale [36.590918776922905]
本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。統一的な視点に触発されたUniDiffuserは、元の拡散モデルに最小限の変更を加えながら、全ての分布を同時に学習する。
論文参考訳（メタデータ） (2023-03-12T03:38:39Z)
Where to Diffuse, How to Diffuse, and How to Get Back: Automated Learning for Multivariate Diffusions [22.04182099405728]
拡散に基づく生成モデル(DBGM)は、ターゲット雑音分布に摂動データを変換し、この推論拡散過程を逆にしてサンプルを生成する。補助変数の数に対して、低いバウンドを最大化する方法を示す。次に,特定対象雑音分布の拡散をパラメータ化する方法を示す。
論文参考訳（メタデータ） (2023-02-14T18:57:04Z)
From Points to Functions: Infinite-dimensional Representations in Diffusion Models [23.916417852496608]
拡散に基づく生成モデルは、非構造的雑音を複雑な対象分布に反復的に伝達することを学ぶ。異なる時間ステップからの情報コンテンツを組み合わせることで、下流のタスクをより正確に表現できることが示される。
論文参考訳（メタデータ） (2022-10-25T05:30:53Z)
Diffusion models as plug-and-play priors [98.16404662526101]
我々は、事前の$p(mathbfx)$と補助的な制約である$c(mathbfx,mathbfy)$からなるモデルにおいて、高次元データ$mathbfx$を推論する問題を考える。拡散モデルの構造は,異なるノイズ量に富んだ定性デノナイジングネットワークを通じて,微分を反復することで近似推論を行うことができる。
論文参考訳（メタデータ） (2022-06-17T21:11:36Z)
Image Generation with Multimodal Priors using Denoising Diffusion Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文参考訳（メタデータ） (2022-06-10T12:23:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。