論文の概要: Consistency-diversity-realism Pareto fronts of conditional image generative models
- arxiv url: http://arxiv.org/abs/2406.10429v1
- Date: Fri, 14 Jun 2024 22:14:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 00:32:34.242514
- Title: Consistency-diversity-realism Pareto fronts of conditional image generative models
- Title(参考訳): 条件付き画像生成モデルの一貫性-多様性-現実性パレートフロント
- Authors: Pietro Astolfi, Marlene Careil, Melissa Hall, Oscar Mañas, Matthew Muckley, Jakob Verbeek, Adriana Romero Soriano, Michal Drozdzal,
- Abstract要約: 我々は、最先端のテキスト・ツー・イメージモデルと画像・アンド・テキスト・ツー・イメージモデルとそのノブを使用して、一貫性の多様性-リアリズムをParetoフロントに描画する。
我々の実験は、リアリズムと一貫性を同時に改善できることを示唆している。
我々の分析は、最良のモデルが存在しず、ダウンストリームアプリケーションによってモデルの選択が決定されるべきであることを示している。
- 参考スコア(独自算出の注目度): 22.372033071088424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building world models that accurately and comprehensively represent the real world is the utmost aspiration for conditional image generative models as it would enable their use as world simulators. For these models to be successful world models, they should not only excel at image quality and prompt-image consistency but also ensure high representation diversity. However, current research in generative models mostly focuses on creative applications that are predominantly concerned with human preferences of image quality and aesthetics. We note that generative models have inference time mechanisms - or knobs - that allow the control of generation consistency, quality, and diversity. In this paper, we use state-of-the-art text-to-image and image-and-text-to-image models and their knobs to draw consistency-diversity-realism Pareto fronts that provide a holistic view on consistency-diversity-realism multi-objective. Our experiments suggest that realism and consistency can both be improved simultaneously; however there exists a clear tradeoff between realism/consistency and diversity. By looking at Pareto optimal points, we note that earlier models are better at representation diversity and worse in consistency/realism, and more recent models excel in consistency/realism while decreasing significantly the representation diversity. By computing Pareto fronts on a geodiverse dataset, we find that the first version of latent diffusion models tends to perform better than more recent models in all axes of evaluation, and there exist pronounced consistency-diversity-realism disparities between geographical regions. Overall, our analysis clearly shows that there is no best model and the choice of model should be determined by the downstream application. With this analysis, we invite the research community to consider Pareto fronts as an analytical tool to measure progress towards world models.
- Abstract(参考訳): 現実の世界を正確にかつ包括的に表現する世界モデルの構築は、条件付き画像生成モデルに対する最大の願望であり、世界シミュレータとしての使用を可能にする。
これらのモデルが成功した世界モデルとなるためには、画像の品質と迅速な画像の整合性に優れるだけでなく、高い表現多様性を確保する必要がある。
しかしながら、生成モデルにおける現在の研究は、画像の品質と美学の人間の嗜好に主に関心を持つ創造的応用に焦点を当てている。
生成モデルは、生成の一貫性、品質、多様性を制御できる推論時間機構(ノブ)を持っていることに留意する。
本稿では,一貫性・多様性・リアリズムの全体像を提供するParetoフロントの描画に,最先端のテキスト・トゥ・イメージと画像・テキスト・トゥ・イメージモデルとそのノブを使用し,一貫性・多様性・リアリズムの全体像を提供する。
我々の実験は、リアリズムと一貫性を同時に改善できることを示唆しているが、リアリズム/一貫性と多様性の間に明確なトレードオフが存在する。
Paretoの最適点を見ると、初期のモデルは表現の多様性が良く、一貫性/リアリズムが悪く、より最近のモデルは一貫性/リアリズムに優れ、表現の多様性は著しく低下している。
パレートフロントをジオディバースデータセットで計算することにより、潜在拡散モデルの最初のバージョンは、すべての評価軸において、より最近のモデルよりも優れた性能を示す傾向にあり、地理的領域間での一貫性-多様性-リアリズムの相違が顕著であることがわかった。
全体として、我々の分析は、最良のモデルが存在しないことを明確に示しており、モデルの選択は下流のアプリケーションによって決定されるべきである。
この分析により,世界モデルに向けた進展を測定するための分析ツールとして,パレートフロントを考察するよう研究コミュニティに呼びかける。
関連論文リスト
- On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [49.60774626839712]
マルチモーダル生成モデルは 彼らの公正さ、信頼性、そして誤用の可能性について 批判的な議論を呼んだ
組込み空間における摂動に対する応答を通じてモデルの信頼性を評価するための評価フレームワークを提案する。
本手法は, 信頼できない, バイアス注入されたモデルを検出し, バイアス前駆体の検索を行うための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Elucidating Optimal Reward-Diversity Tradeoffs in Text-to-Image Diffusion Models [20.70550870149442]
Annealed Importance Guidance(AIG)は、Annealed Importance Smplingにインスパイアされた推論時正規化である。
安定拡散モデルに対するAIGの利点を実証し、報酬最適化と画像の多様性の最適なバランスを図った。
論文 参考訳(メタデータ) (2024-09-09T16:27:26Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Improving Geo-diversity of Generated Images with Contextualized Vendi Score Guidance [12.33170407159189]
最先端のテキスト・トゥ・イメージ生成モデルでは、日常の物体を現実世界の真の多様性で描写するのに苦労する。
本稿では, 遅延拡散モデルの後方ステップを導出し, サンプルの多様性を高めるための推論時間介入, 文脈化されたVendi Score Guidance(c-VSG)を導入する。
c-VSGは、画像の品質と一貫性を同時に維持または改善しつつ、最もパフォーマンスの悪い領域と平均の両方において、生成画像の多様性を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-06T23:35:51Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z) - Explicit and implicit models in infrared and visible image fusion [5.842112272932475]
本稿では,画像融合におけるディープラーニングモデルの限界とそれに対応する最適化戦略について論じる。
21個の試験セットの比較実験を10種類のモデルで行った。
定性的かつ定量的な結果は、暗黙的なモデルが画像の特徴を学習するより包括的な能力を持っていることを示している。
論文 参考訳(メタデータ) (2022-06-20T06:05:09Z) - Diversity vs. Recognizability: Human-like generalization in one-shot
generative models [5.964436882344729]
サンプル認識可能性と多様性の2つの軸に沿った1ショット生成モデルを評価するための新しい枠組みを提案する。
まず、GANのようなモデルとVAEのようなモデルが多様性認識性空間の反対側にあることを示す。
対照的に、非絡み合いは、認識可能性の最大化に使用できるパラボラ曲線に沿ってモデルを輸送する。
論文 参考訳(メタデータ) (2022-05-20T13:17:08Z) - Image Completion via Inference in Deep Generative Models [16.99337751292915]
画像生成モデルにおける償却推論の観点から画像完成を検討する。
CIFAR-10およびFFHQ-256データセットの先行技術と比較して、優れたサンプル品質と多様性を示します。
論文 参考訳(メタデータ) (2021-02-24T02:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。