Fugu-MT 論文翻訳(概要): Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning

論文の概要: Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning

arxiv url: http://arxiv.org/abs/2208.04202v1
Date: Mon, 8 Aug 2022 15:08:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-09 12:17:05.304107
Title: Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning
Title（参考訳）: アナログビット:自己定義型拡散モデルを用いた離散データ生成
Authors: Ting Chen, Ruixiang Zhang, Geoffrey Hinton
Abstract要約: ビット拡散(Bit Diffusion)は、連続拡散モデルを用いて離散データを生成する一般的な手法である。提案手法は,画像生成タスクと画像キャプションタスクの両方において,高い性能を実現することができる。 MS-COCOデータセットの画像キャプションでは, 自己回帰モデルと比較して, 競合的な結果が得られる。
参考スコア（独自算出の注目度）: 90.02873747873444
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Bit Diffusion: a simple and generic approach for generating discrete data with continuous diffusion models. The main idea behind our approach is to first represent the discrete data as binary bits, and then train a continuous diffusion model to model these bits as real numbers which we call analog bits. To generate samples, the model first generates the analog bits, which are then thresholded to obtain the bits that represent the discrete variables. We further propose two simple techniques, namely Self-Conditioning and Asymmetric Time Intervals, which lead to a significant improvement in sample quality. Despite its simplicity, the proposed approach can achieve strong performance in both discrete image generation and image captioning tasks. For discrete image generation, we significantly improve previous state-of-the-art on both CIFAR-10 (which has 3K discrete 8-bit tokens) and ImageNet-64x64 (which has 12K discrete 8-bit tokens), outperforming the best autoregressive model in both sample quality (measured by FID) and efficiency. For image captioning on MS-COCO dataset, our approach achieves competitive results compared to autoregressive models.
Abstract（参考訳）: 連続拡散モデルを用いて離散データを生成するための単純で汎用的な手法Bit Diffusionを提案する。このアプローチの背景にある主な考え方は、まず離散データをバイナリビットとして表現し、その後、これらのビットをアナログビットと呼ぶ実数としてモデル化するために連続拡散モデルを訓練することである。サンプルを生成するために、モデルはまずアナログビットを生成し、それをしきい値にして離散変数を表すビットを得る。さらに、サンプルの品質を著しく向上させる2つの簡単な手法、すなわち、セルフコンディショニングと非対称時間インターバルを提案する。その単純さにもかかわらず,提案手法は画像生成タスクと画像キャプションタスクの両方において高い性能を実現することができる。離散画像生成では,CIFAR-10(離散8ビットトークンが3K)とImageNet-64x64(離散8ビットトークンが12K)の両者の先行技術を改善するとともに,サンプル品質(FID)と効率の両面で最高の自己回帰モデルよりも優れていた。 MS-COCOデータセットの画像キャプションでは, 自己回帰モデルと比較して, 競合的な結果が得られる。

関連論文リスト

D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文参考訳（メタデータ） (2025-03-21T13:58:49Z)
[MASK] is All You Need [28.90875822599164]
離散状態モデルを用いてMasked Generative と Non-autoregressive Diffusion を接続する。離散状態モデルで[MASK]を活用することで、Masked Generative と Non-autoregressive Diffusion モデルを橋渡しできる。
論文参考訳（メタデータ） (2024-12-09T18:59:56Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model [101.65105730838346]
離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
論文参考訳（メタデータ） (2024-08-20T17:48:20Z)
Glauber Generative Model: Discrete Diffusion Models via Binary Classification [21.816933208895843]
離散拡散モデルの新しいクラスであるグラウバー生成モデル(GGM)を紹介する。 GGMはマルコフ連鎖を展開させ、離散トークンの共分散からサンプルにノイズトークンの列を分解する。言語生成や画像生成において,既存の離散拡散モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T10:42:13Z)
Scaling and Masking: A New Paradigm of Data Sampling for Image and Video Quality Assessment [24.545341041444797]
画像とビデオの品質評価は局所的な詳細とグローバルな意味の両方を強調するが、一般的なデータサンプリング手法はそれらを同時にキャッチできない。本研究では,局所的および大域的コンテンツの両方を通常の入力サイズで圧縮する,よりエレガントなデータサンプリング手法を提案する。実験により,本手法は,現在の単一ブランチモデルの性能を著しく向上し,余分なモデル複雑性を伴わないマルチブランチモデルに対する競合性能を実現することができることを示した。
論文参考訳（メタデータ） (2024-01-05T03:12:03Z)
DEff-GAN: Diverse Attribute Transfer for Few-Shot Image Synthesis [0.38073142980733]
我々は、サンプル合成のための複数の画像をモデル化するために、単一画像GAN法を拡張した。我々のデータ効率GAN(DEff-GAN)は、入力画像やクラス間で類似性や対応性を引き出すことができる場合に優れた結果をもたらす。
論文参考訳（メタデータ） (2023-02-28T12:43:52Z)
Fast Sampling of Diffusion Models via Operator Learning [74.37531458470086]
我々は,拡散モデルのサンプリング過程を高速化するために,確率フロー微分方程式の効率的な解法であるニューラル演算子を用いる。シーケンシャルな性質を持つ他の高速サンプリング手法と比較して、並列復号法を最初に提案する。本稿では,CIFAR-10では3.78、ImageNet-64では7.83の最先端FIDを1モデル評価環境で達成することを示す。
論文参考訳（メタデータ） (2022-11-24T07:30:27Z)
On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-10-06T18:03:56Z)
Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。 VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文参考訳（メタデータ） (2022-09-14T21:53:27Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。