論文の概要: Towards Understanding and Quantifying Uncertainty for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2412.03178v1
- Date: Wed, 04 Dec 2024 10:03:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:07.204461
- Title: Towards Understanding and Quantifying Uncertainty for Text-to-Image Generation
- Title(参考訳): テキスト・画像生成における不確かさの理解と定量化に向けて
- Authors: Gianni Franchi, Dat Nguyen Trong, Nacim Belkhir, Guoxuan Xia, Andrea Pilzer,
- Abstract要約: テキスト・ツー・イメージ(T2I)生成モデルにおける不確かさの定量化は,モデル動作の理解と出力信頼性の向上に不可欠である。
我々はこのプロンプトに関して初めてT2Iモデルの不確実性を定量化し評価した。
本稿では,プロンプトをベースとしたT2Iモデル(PUNC)のUNCertainty Estimationを導入し,プロンプトと生成された画像のセマンティクスから生じる不確実性に対処する。
- 参考スコア(独自算出の注目度): 4.1364578693016325
- License:
- Abstract: Uncertainty quantification in text-to-image (T2I) generative models is crucial for understanding model behavior and improving output reliability. In this paper, we are the first to quantify and evaluate the uncertainty of T2I models with respect to the prompt. Alongside adapting existing approaches designed to measure uncertainty in the image space, we also introduce Prompt-based UNCertainty Estimation for T2I models (PUNC), a novel method leveraging Large Vision-Language Models (LVLMs) to better address uncertainties arising from the semantics of the prompt and generated images. PUNC utilizes a LVLM to caption a generated image, and then compares the caption with the original prompt in the more semantically meaningful text space. PUNC also enables the disentanglement of both aleatoric and epistemic uncertainties via precision and recall, which image-space approaches are unable to do. Extensive experiments demonstrate that PUNC outperforms state-of-the-art uncertainty estimation techniques across various settings. Uncertainty quantification in text-to-image generation models can be used on various applications including bias detection, copyright protection, and OOD detection. We also introduce a comprehensive dataset of text prompts and generation pairs to foster further research in uncertainty quantification for generative models. Our findings illustrate that PUNC not only achieves competitive performance but also enables novel applications in evaluating and improving the trustworthiness of text-to-image models.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルにおける不確かさの定量化は,モデル動作の理解と出力信頼性の向上に不可欠である。
本稿では,このプロンプトに関するT2Iモデルの不確かさを初めて定量化し,評価する。
画像空間における不確実性を測定するために設計された既存のアプローチに適応すると同時に、プロンプトに基づくT2IモデルのためのUNCertainty Estimation(PUNC)も導入する。
PUNCはLVLMを使用して生成された画像をキャプションし、そのキャプションと元のプロンプトを意味論的に意味のあるテキスト空間で比較する。
PUNCはまた、画像空間アプローチではできない精度とリコールによって、動脈とてんかんの不確実性の両方を解消することを可能にする。
広範な実験により、PUNCは様々な設定で最先端の不確実性推定技術より優れていることが示された。
テキスト・画像生成モデルにおける不確かさの定量化は、バイアス検出、著作権保護、OOD検出など様々なアプリケーションで利用することができる。
また,テキストプロンプトと生成ペアの包括的データセットを導入し,生成モデルに対する不確実性定量化のさらなる研究を促進する。
この結果から,PUNCは競争性能を向上するだけでなく,テキスト・ツー・イメージ・モデルの信頼性評価や信頼性向上に新たな応用を可能にすることが示唆された。
関連論文リスト
- DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation [0.13124513975412253]
本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
論文 参考訳(メタデータ) (2025-02-05T16:35:42Z) - PromptLA: Towards Integrity Verification of Black-box Text-to-Image Diffusion Models [16.67563247104523]
現在のテキスト・ツー・イメージ(T2I)拡散モデルは高品質な画像を生成することができる。
良心的な目的のためにのみこのモデルを使用することを許可された悪意あるユーザーは、自分のモデルを変更して、有害な社会的影響をもたらす画像を生成するかもしれない。
本稿では,T2I拡散モデルの高精度かつ高精度な完全性検証のための新しいプロンプト選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-20T07:24:32Z) - Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization [29.378296359782585]
テキスト・ツー・イメージ(T2I)拡散モデルはテキスト・プロンプトに基づいて高品質で多様な画像を生成する能力で広く認識されている。
T2Iモデルの不適切な画像生成を防ぐための現在の取り組みは、バイパスが容易であり、敵の攻撃に対して脆弱である。
本稿では,PNO(Prompt-Noise Optimization)と呼ばれる,安全でない画像生成を緩和する新しい学習不要手法を提案する。
論文 参考訳(メタデータ) (2024-12-05T05:12:30Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - VLEU: a Method for Automatic Evaluation for Generalizability of Text-to-Image Models [18.259733507395634]
VLEU(Visual Language Evaluation Understudy)と呼ばれる新しい指標を導入する。
VLEUは、視覚テキストの限界分布とモデルが生成した画像の条件分布との間のクルバック・リーバーの偏差を計算することにより、モデルの一般化可能性を定量化する。
本実験は,様々なT2Iモデルの一般化能力を評価する上で,VLEUの有効性を示す。
論文 参考訳(メタデータ) (2024-09-23T04:50:36Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models [58.74606272936636]
テキスト・ツー・イメージ(T2I)拡散モデルは、テキスト・プロンプトと密接に対応した画像を生成する際、例外的な機能を示す。
モデルは、暴力やヌードの画像を生成したり、不適切な文脈で公共の人物の無許可の肖像画を作成するなど、悪意ある目的のために利用することができる。
悪質な概念や望ましくない概念の発生を防ぐために拡散モデルを変更する概念除去法が提案されている。
論文 参考訳(メタデータ) (2024-06-21T03:58:44Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based
Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。
大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。
本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文 参考訳(メタデータ) (2023-05-22T17:59:41Z) - Uncertainty-aware Generalized Adaptive CycleGAN [44.34422859532988]
unpaired image-to-image translationは、教師なしの方法で画像ドメイン間のマッピングを学ぶことを指す。
既存の手法はしばしば、外れ値への堅牢性や予測不確実性を明示的にモデル化せずに決定論的マッピングを学習する。
Uncertainty-aware Generalized Adaptive Cycle Consistency (UGAC) という新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T15:22:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。