論文の概要: On quantifying and improving realism of images generated with diffusion
- arxiv url: http://arxiv.org/abs/2309.14756v1
- Date: Tue, 26 Sep 2023 08:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 14:35:58.731830
- Title: On quantifying and improving realism of images generated with diffusion
- Title(参考訳): 拡散によって生成された画像の定量化と改善について
- Authors: Yunzhuo Chen, Naveed Akhtar, Nur Al Hasan Haldar, Ajmal Mian
- Abstract要約: 与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
- 参考スコア(独自算出の注目度): 50.37578424163951
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion models have led to a quantum leap in the quality
of generative visual content. However, quantification of realism of the content
is still challenging. Existing evaluation metrics, such as Inception Score and
Fr\'echet inception distance, fall short on benchmarking diffusion models due
to the versatility of the generated images. Moreover, they are not designed to
quantify realism of an individual image. This restricts their application in
forensic image analysis, which is becoming increasingly important in the
emerging era of generative models. To address that, we first propose a metric,
called Image Realism Score (IRS), computed from five statistical measures of a
given image. This non-learning based metric not only efficiently quantifies
realism of the generated images, it is readily usable as a measure to classify
a given image as real or fake. We experimentally establish the model- and
data-agnostic nature of the proposed IRS by successfully detecting fake images
generated by Stable Diffusion Model (SDM), Dalle2, Midjourney and BigGAN.
We further leverage this attribute of our metric to minimize an IRS-augmented
generative loss of SDM, and demonstrate a convenient yet considerable quality
improvement of the SDM-generated content with our modification. Our efforts
have also led to Gen-100 dataset, which provides 1,000 samples for 100 classes
generated by four high-quality models. We will release the dataset and code.
- Abstract(参考訳): 拡散モデルの最近の進歩は、生成的視覚コンテンツの品質の量子的飛躍をもたらした。
しかし、内容の現実性の定量化はまだ難しい。
Inception Score や Fr\'echet のような既存の評価指標は、生成された画像の汎用性により、ベンチマーク拡散モデルでは不足している。
さらに、個々のイメージのリアリズムを定量化するように設計されていない。
これにより法医学的画像解析への応用が制限され、新たな世代モデルの時代においてますます重要になりつつある。
そこで我々はまず,与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
この非学習ベースの計量は、生成された画像のリアリズムを効率的に定量化するだけでなく、与えられた画像を実物または偽物として分類する尺度として容易に利用できる。
本研究では,安定拡散モデル(sdm),dalle2,midjourney,bigganによる偽画像の検出により,提案するirsのモデルおよびデータ非依存性を実験的に確立する。
我々はさらに,sdmのirsによる生成的損失を最小限に抑えるために,この指標の属性を活用し,改良によるsdm生成コンテンツの便利かつ相当な品質改善を実証した。
このデータセットは、4つの高品質モデルによって生成された100のクラスに対して1,000のサンプルを提供します。
データセットとコードをリリースします。
関連論文リスト
- Image Generation Diversity Issues and How to Tame Them [8.858030256056095]
生成メソッドは、実際のデータとほとんど区別できない出力を生成するが、多くの場合、データの完全なキャプチャに失敗する。
本稿では、生成モデルにおける現在の多様性の欠如と、これを測定するための共通指標の欠如に留意する。
画像検索問題として多様性をフレーミングすることでこれを実現し、合成データを用いて実画像の検索回数をクエリとして測定する。
論文 参考訳(メタデータ) (2024-11-25T08:00:21Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - TC-DiffRecon: Texture coordination MRI reconstruction method based on
diffusion model and modified MF-UNet method [2.626378252978696]
本稿では,T-DiffReconという名前の拡散モデルに基づくMRI再構成法を提案する。
また、モデルにより生成されたMRI画像の品質を高めるために、MF-UNetモジュールを組み込むことを提案する。
論文 参考訳(メタデータ) (2024-02-17T13:09:00Z) - The Journey, Not the Destination: How Data Guides Diffusion Models [75.19694584942623]
大規模なデータセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。
i)拡散モデルの文脈でデータ属性の形式的概念を提供し、(ii)そのような属性を反実的に検証することを可能にする枠組みを提案する。
論文 参考訳(メタデータ) (2023-12-11T08:39:43Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Intriguing Property and Counterfactual Explanation of GAN for Remote Sensing Image Generation [25.96740500337747]
GAN(Generative Adversarial Network)は、自然画像の分野で顕著な進歩を遂げている。
GANモデルは、自然な画像生成よりも、RS画像生成のためのトレーニングデータのサイズに敏感である。
本稿では,一様正則化(UR)とエントロピー正則化(ER)という2つの革新的な調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-09T13:22:50Z) - DOLCE: A Model-Based Probabilistic Diffusion Framework for Limited-Angle
CT Reconstruction [42.028139152832466]
Limited-Angle Computed Tomography (LACT) は、セキュリティから医療まで様々な用途で使用される非破壊的評価技術である。
DOLCEは、条件付き拡散モデルを画像として用いた、LACTのための新しいディープモデルベースのフレームワークである。
論文 参考訳(メタデータ) (2022-11-22T15:30:38Z) - Generative Zero-shot Network Quantization [41.75769117366117]
畳み込みニューラルネットワークは、低レベルの画像生成と復元における多数のトレーニングサンプルから現実的な画像優先度を学習することができる。
また,高レベル画像認識タスクでは,本質的バッチ正規化(bn)統計をトレーニングデータなしで活用することにより,各カテゴリの「現実的」画像をさらに再構築できることを示す。
論文 参考訳(メタデータ) (2021-01-21T04:10:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。