論文の概要: Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models
- arxiv url: http://arxiv.org/abs/2502.00826v1
- Date: Sun, 02 Feb 2025 15:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:00:28.487696
- Title: Weak Supervision Dynamic KL-Weighted Diffusion Models Guided by Large Language Models
- Title(参考訳): 大規模言語モデルによる動的KL重み付き拡散モデルの弱スーパービジョン
- Authors: Julian Perry, Frank Sanders, Carter Scott,
- Abstract要約: 本稿では,大言語モデルと拡散モデルを組み合わせることで,テキスト・画像生成を改善する新しい手法を提案する。
提案手法は, 学習済みLLMから意味的理解を取り入れ, 生成過程の導出を行う。
本手法は,テキスト記述による画像の視覚的品質とアライメントを大幅に改善する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we presents a novel method for improving text-to-image generation by combining Large Language Models (LLMs) with diffusion models, a hybrid approach aimed at achieving both higher quality and efficiency in image synthesis from text descriptions. Our approach introduces a new dynamic KL-weighting strategy to optimize the diffusion process, along with incorporating semantic understanding from pre-trained LLMs to guide the generation process. The proposed method significantly improves both the visual quality and alignment of generated images with text descriptions, addressing challenges such as computational inefficiency, instability in training, and robustness to textual variability. We evaluate our method on the COCO dataset and demonstrate its superior performance over traditional GAN-based models, both quantitatively and qualitatively. Extensive experiments, including ablation studies and human evaluations, confirm that our method outperforms existing approaches in terms of image realism, relevance to the input text, and overall aesthetic quality. Our approach also shows promise in scalability to other multimodal tasks, making it a versatile solution for a wide range of generative applications.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) と拡散モデルを組み合わせることで,テキスト記述からの画像合成における高品質と効率の両立を図った新しいテキスト・画像生成法を提案する。
提案手法では, 拡散過程を最適化する動的KL重み付け手法を導入するとともに, 事前学習したLLMからの意味理解を取り入れて生成過程を導出する。
提案手法は, テキスト記述による画像の視覚的品質とアライメント, 計算の非効率性, トレーニングの不安定性, テキストの変動性に対する堅牢性といった課題に対処する。
提案手法をCOCOデータセット上で評価し,従来のGANモデルよりも定量的かつ定性的に優れた性能を示す。
アブレーション研究や人体評価を含む広範囲な実験により,本手法は画像リアリズム,入力テキストの関連性,全体的な美的品質など,既存の手法よりも優れていたことが確認された。
このアプローチは、他のマルチモーダルタスクに対するスケーラビリティの保証も示しています。
関連論文リスト
- Multi-Head Attention Driven Dynamic Visual-Semantic Embedding for Enhanced Image-Text Matching [0.8611782340880084]
本研究は,MH-CVSE (Multi-Headed Consensus-Aware Visual-Semantic Embedding) を用いた視覚的セマンティック埋め込みモデルを提案する。
本モデルでは,コンセンサスを意識した視覚的セマンティック埋め込みモデル(CVSE)に基づくマルチヘッド自己認識機構を導入し,複数のサブ空間の情報を並列に取得する。
損失関数設計においては、MH-CVSEモデルは、損失値自体に応じて動的に重量を調整するために動的重量調整戦略を採用する。
論文 参考訳(メタデータ) (2024-12-26T11:46:22Z) - Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。
我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。
提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文 参考訳(メタデータ) (2024-12-19T19:42:22Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。
MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - Matting by Generation [36.10731452759205]
本稿では,従来の回帰に基づく課題を再定義する,画像マッチングのための革新的なアプローチを提案する。
我々のモデルに優れた解像度とディテールでマットを生産する権限を与える、新しいアーキテクチャ革新を提示します。
論文 参考訳(メタデータ) (2024-07-30T17:58:52Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - A Novel Sampling Scheme for Text- and Image-Conditional Image Synthesis
in Quantized Latent Spaces [0.7340845393655052]
トレーニングパラダイムとサンプリングプロセスの両方を包含するテキスト・画像生成の合理化手法を提案する。
本手法は, 極めて単純であるが, サンプリングをほとんど行わず, 審美的に満足な画像が得られる。
既存の作業に匹敵する結果を得るために,本手法の有効性を示すために,1ビリオンパラメータのテキスト条件モデルを訓練した。
論文 参考訳(メタデータ) (2022-11-14T11:52:55Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。