論文の概要: DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation
- arxiv url: http://arxiv.org/abs/2502.04378v1
- Date: Wed, 05 Feb 2025 16:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:59:12.407937
- Title: DILLEMA: Diffusion and Large Language Models for Multi-Modal Augmentation
- Title(参考訳): DILLEMA:マルチモーダル拡張のための拡散と大規模言語モデル
- Authors: Luciano Baresi, Davide Yi Xian Hu, Muhammad Irfan Mas'udi, Giovanni Quattrocchi,
- Abstract要約: 本稿では,大規模言語モデルと制御条件拡散モデルを活用した視覚ニューラルネットワークのテストフレームワークを提案する。
私たちのアプローチは、キャプションモデルを用いて画像から詳細なテキスト記述に変換することから始まります。
これらの記述は、テキストから画像への拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
- 参考スコア(独自算出の注目度): 0.13124513975412253
- License:
- Abstract: Ensuring the robustness of deep learning models requires comprehensive and diverse testing. Existing approaches, often based on simple data augmentation techniques or generative adversarial networks, are limited in producing realistic and varied test cases. To address these limitations, we present a novel framework for testing vision neural networks that leverages Large Language Models and control-conditioned Diffusion Models to generate synthetic, high-fidelity test cases. Our approach begins by translating images into detailed textual descriptions using a captioning model, allowing the language model to identify modifiable aspects of the image and generate counterfactual descriptions. These descriptions are then used to produce new test images through a text-to-image diffusion process that preserves spatial consistency and maintains the critical elements of the scene. We demonstrate the effectiveness of our method using two datasets: ImageNet1K for image classification and SHIFT for semantic segmentation in autonomous driving. The results show that our approach can generate significant test cases that reveal weaknesses and improve the robustness of the model through targeted retraining. We conducted a human assessment using Mechanical Turk to validate the generated images. The responses from the participants confirmed, with high agreement among the voters, that our approach produces valid and realistic images.
- Abstract(参考訳): ディープラーニングモデルの堅牢性を保証するには、包括的で多様なテストが必要です。
既存のアプローチは、しばしば単純なデータ拡張技術や生成的敵ネットワークに基づいており、現実的で多様なテストケースを生成することに制限されている。
これらの制約に対処するため、我々は、大規模言語モデルと制御条件付き拡散モデルを活用して、合成された高忠実なテストケースを生成する、視覚ニューラルネットワークをテストするための新しいフレームワークを提案する。
提案手法は,画像をキャプションモデルを用いて詳細なテキスト記述に翻訳することで,画像の修正可能な側面を識別し,反実的記述を生成する。
これらの記述は、空間的一貫性を保ち、シーンの重要な要素を維持するテキスト・ツー・イメージ拡散プロセスを通じて、新しいテスト画像を生成するために使用される。
画像分類のためのImageNet1Kと、自律運転におけるセマンティックセグメンテーションのためのShiFTの2つのデータセットを用いて、本手法の有効性を実証する。
その結果、本手法は弱点を明らかにし、ターゲットの再トレーニングによってモデルの堅牢性を向上する重要なテストケースを生成できることが示唆された。
メカニカル・トルクを用いて人体評価を行い, 生成した画像の検証を行った。
参加者からの回答は,有権者の間で高い合意を得て,本手法が有効かつ現実的な画像を生成することを確認した。
関連論文リスト
- Beyond-Labels: Advancing Open-Vocabulary Segmentation With Vision-Language Models [0.0]
自己教師付き学習は、効果的に訓練された場合、多数の画像や言語処理の問題を解決することができる。
本研究では, セマンティックセグメンテーションタスクに対して, 以前に学習した基礎モデルを適用するための簡易かつ効率的な手法について検討した。
本研究は,少数の画像分割データを用いて,凍結画像表現と言語概念を融合する軽量トランスフォーマーベース融合モジュールであるBeyond-Labelsを提案する。
論文 参考訳(メタデータ) (2025-01-28T07:49:52Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [120.49126407479717]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Photorealistic and Identity-Preserving Image-Based Emotion Manipulation
with Latent Diffusion Models [31.55798962786664]
In-the-wild」画像を用いた拡散モデルの感情操作能力について検討する。
我々は、AffectNet上で広範囲な評価を行い、画像の品質とリアリズムの観点から、我々のアプローチの優位性を示す。
論文 参考訳(メタデータ) (2023-08-06T18:28:26Z) - LANCE: Stress-testing Visual Models by Generating Language-guided
Counterfactual Images [20.307968197151897]
言語誘導型対実テスト画像(LANCE)を生成することにより、訓練された視覚モデルをストレステストする自動アルゴリズムを提案する。
提案手法は,大規模言語モデリングとテキストベースの画像編集の最近の進歩を利用して,モデル重みを変更することなく,多種多様で現実的で挑戦的なテスト画像の集合を用いてIIDテストセットを増強する。
論文 参考訳(メタデータ) (2023-05-30T16:09:16Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。