論文の概要: Evaluating Robustness in Latent Diffusion Models via Embedding Level Augmentation
- arxiv url: http://arxiv.org/abs/2506.07706v1
- Date: Mon, 09 Jun 2025 12:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.951392
- Title: Evaluating Robustness in Latent Diffusion Models via Embedding Level Augmentation
- Title(参考訳): 埋め込みレベルの増大による潜伏拡散モデルのロバスト性評価
- Authors: Boris Martirosyan, Alexey Karmanov,
- Abstract要約: 遅延拡散モデル (LDM) は様々なタスクにおいて最先端の性能を達成する。
それらは一般に、現在の研究で十分に研究されていない限界である頑健さを欠いている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent diffusion models (LDMs) achieve state-of-the-art performance across various tasks, including image generation and video synthesis. However, they generally lack robustness, a limitation that remains not fully explored in current research. In this paper, we propose several methods to address this gap. First, we hypothesize that the robustness of LDMs primarily should be measured without their text encoder, because if we take and explore the whole architecture, the problems of image generator and text encoders wll be fused. Second, we introduce novel data augmentation techniques designed to reveal robustness shortcomings in LDMs when processing diverse textual prompts. We then fine-tune Stable Diffusion 3 and Stable Diffusion XL models using Dreambooth, incorporating these proposed augmentation methods across multiple tasks. Finally, we propose a novel evaluation pipeline specifically tailored to assess the robustness of LDMs fine-tuned via Dreambooth.
- Abstract(参考訳): 遅延拡散モデル(LDM)は、画像生成やビデオ合成など、様々なタスクにおいて最先端のパフォーマンスを達成する。
しかし、それらは概して堅牢性に欠けており、現在の研究ではまだ完全には研究されていない。
本稿では,このギャップに対処するためのいくつかの手法を提案する。
まず, LDMのロバスト性は, テキストエンコーダを使わずに測定すべきであると仮定する。
第2に、多種多様なテキストプロンプトを処理する際に、LCDの堅牢性欠陥を明らかにするために設計された新しいデータ拡張手法を導入する。
次に,Dreambooth を用いた安定拡散 3 および安定拡散 XL モデルを微調整し,これらの拡張手法を複数のタスクに適用した。
最後に,Dreamboothを介して微調整されたLCDの堅牢性を評価するための,新しい評価パイプラインを提案する。
関連論文リスト
- Towards Evaluating Robustness of Prompt Adherence in Text to Image Models [0.0]
本稿では,テキスト・ツー・イメージ・モデルのための総合的な評価枠組みを確立することを目的とする。
我々は,入力テキストプロンプトの変動要因に応じた画像を生成する際に,これらのモデルのロバスト性を評価することを目的とした,新しいデータセットを構築した。
その結果、これらのモデルでは、単純な幾何学的形状と位置の2つの要素だけで、単純なバイナリ画像を作成するのに苦労していることが判明した。
論文 参考訳(メタデータ) (2025-07-09T18:40:17Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion [55.185588994883226]
VQ-LCMDは、学習を安定させる埋め込み空間内の連続空間潜在拡散フレームワークである。
VQ-LCMDは、関節埋め込み拡散変動下界と整合整合性(CM)損失を組み合わせた新しいトレーニング目標を使用する。
実験により,提案したVQ-LCMDは離散状態潜伏拡散モデルと比較して,FFHQ,LSUN教会,LSUNベッドルームにおいて優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - EDADepth: Enhanced Data Augmentation for Monocular Depth Estimation [4.477063987845632]
EDADepthは、追加のトレーニングデータを用いることなく単眼深度を推定する拡張データ拡張手法である。
我々は、テキスト埋め込みのより良い抽出にBEiT事前学習セマンティックセマンティックセマンティクスモデルを用いる。
本モデルでは,NYUv2 と KITTI のデータセット上での delta3 測定結果(SOTA)が得られた。
論文 参考訳(メタデータ) (2024-09-10T03:25:24Z) - LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? [10.72249123249003]
我々は拡散モデルを再検討し、全体論的文脈モデリングと並列復号化の能力を強調した。
本稿では,分割BERTを用いた新しいアーキテクチャLaDiCを導入し,キャプション専用のラテント空間を創出する。
LaDiCは、38.2 BLEU@4と126.2 CIDErのMSデータセット上で拡散ベースのメソッドの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-16T17:47:16Z) - LDM-ISP: Enhancing Neural ISP for Low Light with Latent Diffusion Models [54.93010869546011]
本稿では,事前学習した潜伏拡散モデルを用いて,超低照度画像の高精細化のためのニューラルISPを実現することを提案する。
具体的には、RAWドメイン上で動作するために事前訓練された潜在拡散モデルを調整するために、軽量なテーミングモジュールのセットをトレーニングする。
遅延拡散モデルにおけるUNet復調と復号化の異なる役割を観察し、低照度画像強調タスクを遅延空間低周波コンテンツ生成と復号位相高周波ディテール保守に分解するきっかけとなる。
論文 参考訳(メタデータ) (2023-12-02T04:31:51Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Latent Consistency Models: Synthesizing High-Resolution Images with
Few-Step Inference [60.32804641276217]
本稿では,LCM(Latent Consistency Models)を提案する。
高品質の768 x 768 24-step LCMは、トレーニングに32A100 GPU時間しかかからない。
また,画像データセットの微調整に適した新しいLCM法であるLCF(Latent Consistency Fine-tuning)についても紹介する。
論文 参考訳(メタデータ) (2023-10-06T17:11:58Z) - On the Robustness of Latent Diffusion Models [28.079024443425205]
遅延拡散モデルは、画像合成や画像編集など、様々な生成タスクにおいて最先端のパフォーマンスを達成する。
まず, 潜伏拡散モデル内の成分が白色箱の頑健性に及ぼす影響について検討した。
我々は,ホワイトボックスのシナリオに加えて,移動攻撃による潜伏拡散モデルのブラックボックスロバスト性を評価する。
論文 参考訳(メタデータ) (2023-06-14T05:47:15Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [76.89932822375208]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - Blended Latent Diffusion [18.043090347648157]
本稿では,汎用画像の局所的なテキスト駆動編集の課題に対して,ユーザが提供するマスクに所望の編集を限定する高速化されたソリューションを提案する。
提案手法は,低次元の潜伏空間で操作することで拡散を高速化する,最近のテキストから画像への潜伏拡散モデル (LDM) を利用する。
論文 参考訳(メタデータ) (2022-06-06T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。