論文の概要: Markup-to-Image Diffusion Models with Scheduled Sampling
- arxiv url: http://arxiv.org/abs/2210.05147v1
- Date: Tue, 11 Oct 2022 04:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 13:45:35.141639
- Title: Markup-to-Image Diffusion Models with Scheduled Sampling
- Title(参考訳): スケジューリングサンプリングによるマークアップ・ツー・イメージ拡散モデル
- Authors: Yuntian Deng, Noriyuki Kojima, Alexander M. Rush
- Abstract要約: 画像生成の最近の進歩に基づき,画像にマークアップを描画するためのデータ駆動型アプローチを提案する。
このアプローチは拡散モデルに基づいており、デノナイジング操作のシーケンスを用いてデータの分布をパラメータ化する。
数式(La)、テーブルレイアウト(HTML)、シート音楽(LilyPond)、分子画像(SMILES)の4つのマークアップデータセットの実験を行った。
- 参考スコア(独自算出の注目度): 111.30188533324954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building on recent advances in image generation, we present a fully
data-driven approach to rendering markup into images. The approach is based on
diffusion models, which parameterize the distribution of data using a sequence
of denoising operations on top of a Gaussian noise distribution. We view the
diffusion denoising process as a sequential decision making process, and show
that it exhibits compounding errors similar to exposure bias issues in
imitation learning problems. To mitigate these issues, we adapt the scheduled
sampling algorithm to diffusion training. We conduct experiments on four markup
datasets: mathematical formulas (LaTeX), table layouts (HTML), sheet music
(LilyPond), and molecular images (SMILES). These experiments each verify the
effectiveness of the diffusion process and the use of scheduled sampling to fix
generation issues. These results also show that the markup-to-image task
presents a useful controlled compositional setting for diagnosing and analyzing
generative image models.
- Abstract(参考訳): 画像生成の最近の進歩に基づき,画像にマークアップを描画するための完全データ駆動型アプローチを提案する。
このアプローチは拡散モデルに基づいており、ガウス雑音分布の上の消音演算のシーケンスを用いてデータの分布をパラメータ化する。
本研究では,拡散認知過程を逐次決定過程とみなし,擬似学習問題における露出バイアス問題と類似した複合的誤りを示すことを示す。
これらの問題を緩和するため,本手法は拡散訓練に適応する。
数式(LaTeX)、テーブルレイアウト(HTML)、シート音楽(LilyPond)、分子画像(SMILES)の4つのマークアップデータセットについて実験を行った。
これらの実験は, 拡散過程の有効性を検証し, 生成問題の修正に計画的サンプリングを用いた。
これらの結果から,マークアップ・トゥ・イメージタスクは生成画像モデルの診断・解析に有用な制御された構成条件を示すことがわかった。
関連論文リスト
- A Simple Early Exiting Framework for Accelerated Sampling in Diffusion Models [14.859580045688487]
拡散モデルの現実的なボトルネックはサンプリング速度である。
スコア推定に必要な計算を適応的に割り当てる新しいフレームワークを提案する。
本研究では,画像品質を損なうことなく,拡散モデルのサンプリングスループットを大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-08-12T05:33:45Z) - Glauber Generative Model: Discrete Diffusion Models via Binary Classification [21.816933208895843]
離散拡散モデルの新しいクラスであるグラウバー生成モデル(GGM)を紹介する。
GGMはマルコフ連鎖を展開させ、離散トークンの共分散からサンプルにノイズトークンの列を分解する。
言語生成や画像生成において,既存の離散拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T10:42:13Z) - Generalized Consistency Trajectory Models for Image Manipulation [59.576781858809355]
拡散モデル(DM)は、画像編集や復元などの応用と同様に、無条件生成において優れている。
本研究の目的は、一般化されたCTM(GCTM)を提案することによって、整合性軌道モデル(CTM)の完全なポテンシャルを解放することである。
本稿では,GCTMの設計空間について論じ,画像から画像への変換,復元,編集など,様々な画像操作タスクにおいて有効性を示す。
論文 参考訳(メタデータ) (2024-03-19T07:24:54Z) - Diffusion Posterior Proximal Sampling for Image Restoration [27.35952624032734]
我々は拡散に基づく画像復元のための洗練されたパラダイムを提案する。
具体的には,各生成段階における測定値と一致したサンプルを選択する。
選択に使用する候補サンプルの数は、タイムステップの信号対雑音比に基づいて適応的に決定される。
論文 参考訳(メタデータ) (2024-02-25T04:24:28Z) - Blue noise for diffusion models [50.99852321110366]
本稿では,画像内および画像間の相関雑音を考慮した拡散モデルを提案する。
我々のフレームワークは、勾配流を改善するために、1つのミニバッチ内に画像間の相関を導入することができる。
本手法を用いて,各種データセットの質的,定量的な評価を行う。
論文 参考訳(メタデータ) (2024-02-07T14:59:25Z) - Preserving Image Properties Through Initializations in Diffusion Models [6.804700416902898]
現在適用されている安定拡散法は,小売写真の要求を尊重しないことを示す。
非常にノイズの多い画像でデノイザーを訓練する通常の習慣は、推論中に一貫性のない画像を生成する。
均一な背景を持つ中央の小売商品画像で訓練されたネットワークは、不規則な背景を持つ画像を生成する。
本手法は,拡散法における制御可能性を高めるために,他の制御法と良好に相互作用することができる。
論文 参考訳(メタデータ) (2024-01-04T06:55:49Z) - Denoising Diffusion Bridge Models [54.87947768074036]
拡散モデルは、プロセスを使用してデータにノイズをマッピングする強力な生成モデルである。
画像編集のような多くのアプリケーションでは、モデル入力はランダムノイズではない分布から来る。
本研究では, DDBM(Denoising Diffusion Bridge Models)を提案する。
論文 参考訳(メタデータ) (2023-09-29T03:24:24Z) - Gradpaint: Gradient-Guided Inpainting with Diffusion Models [71.47496445507862]
Denoising Diffusion Probabilistic Models (DDPM) は近年,条件付きおよび非条件付き画像生成において顕著な成果を上げている。
我々はGradPaintを紹介し、グローバルな一貫性のあるイメージに向けて世代を操る。
我々は、様々なデータセットで訓練された拡散モデルによく適応し、現在最先端の教師付きおよび教師なしの手法を改善している。
論文 参考訳(メタデータ) (2023-09-18T09:36:24Z) - VideoFusion: Decomposed Diffusion Models for High-Quality Video
Generation [88.49030739715701]
本研究は, フレームごとのノイズを, 全フレーム間で共有されるベースノイズ, 時間軸に沿って変化する残雑音に分解することで, 拡散過程を分解する。
様々なデータセットの実験により,ビデオフュージョンと呼ばれる我々の手法が,高品質なビデオ生成において,GANベースと拡散ベースの両方の選択肢を上回ることが確認された。
論文 参考訳(メタデータ) (2023-03-15T02:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。