Fugu-MT 論文翻訳(概要): DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling

論文の概要: DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling

arxiv url: http://arxiv.org/abs/2409.16949v1
Date: Wed, 25 Sep 2024 14:02:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 03:25:18.552869
Title: DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling
Title（参考訳）: DALDA: 適応誘導スケーリングによる拡散モデルとLLMを活用したデータ拡張
Authors: Kyuheon Jung, Yongdeuk Seo, Seongwoo Cho, Jaeyoung Kim, Hyun-seok Min, Sungchul Choi,
Abstract要約: 大規模言語モデル(LLM)と拡散モデル(DM)を利用した効果的なデータ拡張フレームワークを提案する。提案手法は,合成画像の多様性を増大させる問題に対処する。本手法は, 目標分布の付着性を維持しつつ, 多様性を向上した合成画像を生成する。
参考スコア（独自算出の注目度）: 6.7206291284535125
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present an effective data augmentation framework leveraging the Large Language Model (LLM) and Diffusion Model (DM) to tackle the challenges inherent in data-scarce scenarios. Recently, DMs have opened up the possibility of generating synthetic images to complement a few training images. However, increasing the diversity of synthetic images also raises the risk of generating samples outside the target distribution. Our approach addresses this issue by embedding novel semantic information into text prompts via LLM and utilizing real images as visual prompts, thus generating semantically rich images. To ensure that the generated images remain within the target distribution, we dynamically adjust the guidance weight based on each image's CLIPScore to control the diversity. Experimental results show that our method produces synthetic images with enhanced diversity while maintaining adherence to the target distribution. Consequently, our approach proves to be more efficient in the few-shot setting on several benchmarks. Our code is available at https://github.com/kkyuhun94/dalda .
Abstract（参考訳）: 本稿では,Large Language Model (LLM) とDiffusion Model (DM) を利用した効果的なデータ拡張フレームワークを提案する。近年、DMは、いくつかのトレーニングイメージを補完する合成画像を生成する可能性を開放している。しかし, 合成画像の多様性の増大は, ターゲット分布外のサンプル生成のリスクも高める。提案手法では,新たな意味情報をLLMを介してテキストプロンプトに埋め込み,実画像を視覚的プロンプトとして活用することにより,意味的にリッチな画像を生成する。生成した画像が目標分布内にあることを保証するため、各画像のCLIPSスコアに基づいて誘導重量を動的に調整し、多様性を制御する。実験結果から,本手法は目標分布の順守を維持しつつ,多様性を向上した合成画像を生成することがわかった。その結果、いくつかのベンチマークで数ショットの環境では、より効率的であることが証明された。私たちのコードはhttps://github.com/kkyuhun94/daldaで利用可能です。

関連論文リスト

GMAIL: Generative Modality Alignment for generated Image Learning [51.071351994330605]
本稿では,生成画像の識別のための新しいフレームワークGMAILを提案する。我々のフレームワークは様々な視覚言語モデルに容易に組み込むことができ、広範囲にわたる実験を通してその有効性を示す。
論文参考訳（メタデータ） (2026-02-17T05:40:25Z)
Data Factory with Minimal Human Effort Using VLMs [35.30747487237989]
我々は、予め訓練されたコントロールネットとビジョンランゲージモデル(VLM)を統合して、ピクセルレベルのラベルと組み合わせた合成画像を生成する。このアプローチは手動のアノテーションの必要性を排除し、下流のタスクを大幅に改善します。 PASCAL-5i と COCO-20i は,単発セマンティックセマンティックセグメンテーションにおいて有望な性能と性能を示す。
論文参考訳（メタデータ） (2025-10-07T09:43:24Z)
Image Augmentation Agent for Weakly Supervised Semantic Segmentation [19.654959889052638]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は画像レベルラベルのみを用いて顕著な進歩を遂げた。本稿では,データ生成の観点からWSSSを拡張できるIAA(Image Augmentation Agent)という新しいアプローチを提案する。 IAAは主に、大きな言語モデル(LLM)と拡散モデルを利用してWSSS用の追加画像を自動的に生成する拡張エージェントを設計する。
論文参考訳（メタデータ） (2024-12-29T11:32:55Z)
Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文参考訳（メタデータ） (2024-12-19T19:42:22Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を避けるために連続的に評価された画像トークンを取り入れる。 MMARは他のジョイントマルチモーダルモデルよりもはるかに優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。 MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文参考訳（メタデータ） (2024-03-22T09:32:31Z)
The Journey, Not the Destination: How Data Guides Diffusion Models [75.19694584942623]
大規模なデータセットでトレーニングされた拡散モデルは、顕著な品質と多様性のフォトリアリスティックなイメージを合成することができる。 i)拡散モデルの文脈でデータ属性の形式的概念を提供し、(ii)そのような属性を反実的に検証することを可能にする枠組みを提案する。
論文参考訳（メタデータ） (2023-12-11T08:39:43Z)
Improving Denoising Diffusion Probabilistic Models via Exploiting Shared Representations [5.517338199249029]
SR-DDPMはノイズ拡散過程を逆転することで高品質な画像を生成する生成モデルのクラスである。多様なデータ分布の類似性を利用して、画像の品質を損なうことなく、複数のタスクにスケールできる。提案手法を標準画像データセット上で評価し、FIDとSSIMの指標で条件付きDDPMと条件付きDDPMの両方より優れていることを示す。
論文参考訳（メタデータ） (2023-11-27T22:30:26Z)
Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文参考訳（メタデータ） (2023-08-21T08:12:28Z)
Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文参考訳（メタデータ） (2023-05-30T04:09:47Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Multimodal Image-to-Image Translation via Mutual Information Estimation and Maximization [16.54980086211836]
マルチモーダル画像画像変換 (Multimodal image-to-image translation, I2IT) は、ソース領域の入力画像が与えられた対象領域内の複数の可能な画像を探索する条件分布を学習することを目的としている。このような条件分布をモデル化するために、条件生成逆ネットワーク(cGAN)がよく用いられる。本稿では,cGANにおける潜在コードと出力画像間の相互情報を明示的に推定し,最大化する手法を提案する。
論文参考訳（メタデータ） (2020-08-08T14:09:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。