論文の概要: LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images
- arxiv url: http://arxiv.org/abs/2503.16376v1
- Date: Thu, 20 Mar 2025 17:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:42.608552
- Title: LaPIG: Cross-Modal Generation of Paired Thermal and Visible Facial Images
- Title(参考訳): LaPIG: 対面熱・可視顔画像のクロスモーダル生成
- Authors: Leyang Wang, Joice Lin,
- Abstract要約: 本稿では,Large Language Models (LLM) が生成するキャプションを用いて,高品質な可視画像と熱画像の合成を可能にするLaPIGというフレームワークを提案する。
提案手法は,多視点の可視画像と熱画像を生成し,データの多様性を高めるだけでなく,識別情報を保持しながら高品質なペアデータを生成する。
提案手法を既存の手法と比較し,LaPIGの優位性を実証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The success of modern machine learning, particularly in facial translation networks, is highly dependent on the availability of high-quality, paired, large-scale datasets. However, acquiring sufficient data is often challenging and costly. Inspired by the recent success of diffusion models in high-quality image synthesis and advancements in Large Language Models (LLMs), we propose a novel framework called LLM-assisted Paired Image Generation (LaPIG). This framework enables the construction of comprehensive, high-quality paired visible and thermal images using captions generated by LLMs. Our method encompasses three parts: visible image synthesis with ArcFace embedding, thermal image translation using Latent Diffusion Models (LDMs), and caption generation with LLMs. Our approach not only generates multi-view paired visible and thermal images to increase data diversity but also produces high-quality paired data while maintaining their identity information. We evaluate our method on public datasets by comparing it with existing methods, demonstrating the superiority of LaPIG.
- Abstract(参考訳): 現代の機械学習、特に顔翻訳ネットワークの成功は、高品質でペア化された大規模データセットの可用性に大きく依存している。
しかし、十分なデータを取得することはしばしば困難でコストがかかる。
LLM(Large Language Models)の高精細画像合成・高度化における拡散モデルの成功に触発されて,LLM支援ペアド画像生成(LaPIG)と呼ばれる新しいフレームワークを提案する。
このフレームワークは、LLMによって生成されたキャプションを用いて、包括的で高品質なペア・可視・熱画像の構築を可能にする。
本手法は,ArcFace埋め込みによる可視画像合成,LDMを用いた熱画像変換,LCMを用いたキャプション生成の3つの部分を含む。
提案手法は,多視点の可視画像と熱画像を生成し,データの多様性を高めるだけでなく,識別情報を保持しながら高品質なペアデータを生成する。
提案手法を既存の手法と比較し,LaPIGの優位性を実証した。
関連論文リスト
- Image Augmentation Agent for Weakly Supervised Semantic Segmentation [19.654959889052638]
弱教師付きセマンティックセマンティックセグメンテーション (WSSS) は画像レベルラベルのみを用いて顕著な進歩を遂げた。
本稿では,データ生成の観点からWSSSを拡張できるIAA(Image Augmentation Agent)という新しいアプローチを提案する。
IAAは主に、大きな言語モデル(LLM)と拡散モデルを利用してWSSS用の追加画像を自動的に生成する拡張エージェントを設計する。
論文 参考訳(メタデータ) (2024-12-29T11:32:55Z) - Img-Diff: Contrastive Data Synthesis for Multimodal Large Language Models [49.439311430360284]
コントラスト学習と画像差分キャプションにインスパイアされた新しいデータ合成手法を提案する。
私たちのキーとなるアイデアは、マッチングと異なる要素の両方を識別するためにモデルに挑戦することです。
我々は、この生成されたデータセットを利用して、最先端(SOTA)MLLMを微調整する。
論文 参考訳(メタデータ) (2024-08-08T17:10:16Z) - TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing [23.51498634405422]
マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。
提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
論文 参考訳(メタデータ) (2024-05-27T03:50:37Z) - Synth$^2$: Boosting Visual-Language Models with Synthetic Captions and Image Embeddings [16.28853186016663]
効率的な視覚言語モデル(VLM)トレーニングのための合成画像テキストペアを作成する。
本手法では,LLMが生成したキャプションから画像埋め込みを合成するために,事前訓練されたテキスト・ツー・イメージモデルを用いる。
我々のVLMは、人工的なデータに基づいて微調整され、人間に注釈付けされたデータにのみ訓練されたモデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2024-03-12T15:36:42Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - LLMGA: Multimodal Large Language Model based Generation Assistant [53.150283805515926]
画像生成と編集を支援するマルチモーダル大規模言語モデルベース生成アシスタント(LLMGA)を提案する。
我々はMLLMを訓練し、画像生成と編集の特性を把握し、詳細なプロンプトを生成する。
広範な結果から、LLMGAは将来的な生成と編集機能を備えており、より柔軟で拡張性の高いアプリケーションを可能にすることが示されている。
論文 参考訳(メタデータ) (2023-11-27T13:37:26Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Interactive Data Synthesis for Systematic Vision Adaptation via
LLMs-AIGCs Collaboration [48.54002313329872]
本稿では,ChatGenImageというアノテーション付きデータ拡張の新しいパラダイムを提案する。
その中核となる考え方は、多様なモデルの補完的な強みを活用して、インタラクティブなデータ拡張のための高効率でユーザフレンドリなパイプラインを確立することである。
筆者らはChatGenImageフレームワークから得られた興味深い結果を提示し, 系統的視覚適応のための合成データの強力なポテンシャルを実証する。
論文 参考訳(メタデータ) (2023-05-22T07:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。