論文の概要: GMAIL: Generative Modality Alignment for generated Image Learning
- arxiv url: http://arxiv.org/abs/2602.15368v1
- Date: Tue, 17 Feb 2026 05:40:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.988001
- Title: GMAIL: Generative Modality Alignment for generated Image Learning
- Title(参考訳): GMAIL: 生成した画像学習のための生成モダリティアライメント
- Authors: Shentong Mo, Sukmin Yun,
- Abstract要約: 本稿では,生成画像の識別のための新しいフレームワークGMAILを提案する。
我々のフレームワークは様々な視覚言語モデルに容易に組み込むことができ、広範囲にわたる実験を通してその有効性を示す。
- 参考スコア(独自算出の注目度): 51.071351994330605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have made it possible to synthesize highly realistic images, potentially providing an abundant data source for training machine learning models. Despite the advantages of these synthesizable data sources, the indiscriminate use of generated images as real images for training can even cause mode collapse due to modality discrepancies between real and synthetic domains. In this paper, we propose a novel framework for discriminative use of generated images, coined GMAIL, that explicitly treats generated images as a separate modality from real images. Instead of indiscriminately replacing real images with generated ones in the pixel space, our approach bridges the two distinct modalities in the same latent space through a multi-modal learning approach. To be specific, we first fine-tune a model exclusively on generated images using a cross-modality alignment loss and then employ this aligned model to further train various vision-language models with generated images. By aligning the two modalities, our approach effectively leverages the benefits of recent advances in generative models, thereby boosting the effectiveness of generated image learning across a range of vision-language tasks. Our framework can be easily incorporated with various vision-language models, and we demonstrate its efficacy throughout extensive experiments. For example, our framework significantly improves performance on image captioning, zero-shot image retrieval, zero-shot image classification, and long caption retrieval tasks. It also shows positive generated data scaling trends and notable enhancements in the captioning performance of the large multimodal model, LLaVA.
- Abstract(参考訳): 生成モデルにより、非常にリアルな画像を合成することができ、マシンラーニングモデルをトレーニングするための豊富なデータソースを提供する可能性がある。
これらの合成可能なデータソースの利点にもかかわらず、生成した画像を実際の訓練用画像として無差別に使用することは、実際のドメインと合成ドメインの間でのモダリティの相違によるモード崩壊を招きかねない。
本稿では,生成画像の識別のための新しいフレームワークGMAILを提案する。
実画像と画素空間における生成画像とを無差別に置き換える代わりに、我々のアプローチは、マルチモーダル学習アプローチを通じて、同じ潜在空間における2つの異なるモダリティを橋渡しする。
具体的には、まず、モード間のアライメント損失を用いて生成された画像にのみモデルを微調整し、次に、このアライメントモデルを用いて、生成された画像で様々な視覚言語モデルをさらに訓練する。
この2つのモダリティを整合させることにより, 生成モデルにおける最近の進歩の利点を効果的に活用し, 視覚言語タスクの範囲で生成した画像学習の有効性を向上する。
我々のフレームワークは様々な視覚言語モデルに容易に組み込むことができ、広範囲な実験を通してその有効性を示す。
例えば、画像キャプション、ゼロショット画像検索、ゼロショット画像分類、長いキャプション検索タスクの性能を大幅に向上させる。
また,大規模マルチモーダルモデルであるLLaVAのキャプション性能が向上した。
関連論文リスト
- Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。