論文の概要: Multi-modal Synthetic Data Training and Model Collapse: Insights from VLMs and Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.08803v1
- Date: Sat, 10 May 2025 22:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.222862
- Title: Multi-modal Synthetic Data Training and Model Collapse: Insights from VLMs and Diffusion Models
- Title(参考訳): マルチモーダル合成データトレーニングとモデル崩壊:VLMと拡散モデルからの考察
- Authors: Zizhao Hu, Mohammad Rostami, Jesse Thomason,
- Abstract要約: マルチモーダル視覚言語生成システムにおける生成モデル崩壊のリスクについて検討する。
モデル崩壊は、視覚言語アライメントの改善や、画像キャプションタスクのばらつきの増大など、マルチモーダルな文脈において異なる特徴を示す。
本研究は,自己改善型マルチエージェントAIシステムにおいて,モデル崩壊のリスクを低減するための初期知見と実践的ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 24.73190742678142
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research has highlighted the risk of generative model collapse, where performance progressively degrades when continually trained on self-generated data. However, existing exploration on model collapse is limited to single, unimodal models, limiting our understanding in more realistic scenarios, such as diverse multi-modal AI agents interacting autonomously through synthetic data and continually evolving. We expand the synthetic data training and model collapse study to multi-modal vision-language generative systems, such as vision-language models (VLMs) and text-to-image diffusion models, as well as recursive generate-train loops with multiple models. We find that model collapse, previously observed in single-modality generative models, exhibits distinct characteristics in the multi-modal context, such as improved vision-language alignment and increased variance in VLM image-captioning task. Additionally, we find that general approaches such as increased decoding budgets, greater model diversity, and relabeling with frozen models can effectively mitigate model collapse. Our findings provide initial insights and practical guidelines for reducing the risk of model collapse in self-improving multi-agent AI systems and curating robust multi-modal synthetic datasets.
- Abstract(参考訳): 近年の研究では、自己生成データで継続的にトレーニングされた場合、性能が徐々に低下する生成モデル崩壊のリスクが強調されている。
しかし、モデル崩壊に関する既存の調査は、単一のユニモーダルモデルに限られており、多様なマルチモーダルAIエージェントが合成データを介して自律的に相互作用し、継続的に進化するなど、より現実的なシナリオにおける私たちの理解を制限する。
我々は、合成データトレーニングとモデル崩壊研究を、視覚言語モデル(VLM)やテキスト・ツー・イメージ拡散モデルといったマルチモーダルな視覚言語生成システムに拡張するとともに、複数のモデルによる再帰的な生成-学習ループに拡張する。
単一のモダリティ生成モデルで以前見られたモデル崩壊は、視覚言語アライメントの改善やVLM画像キャプチャタスクのばらつきの増加など、マルチモーダルな文脈で異なる特徴を示す。
さらに、デコード予算の増加、モデルの多様性の向上、凍結モデルによる緩和といった一般的なアプローチは、モデル崩壊を効果的に軽減することができる。
我々の研究は、自己改善型マルチエージェントAIシステムにおけるモデル崩壊のリスクを低減し、堅牢なマルチモーダル合成データセットをキュレートするための最初の洞察と実践的ガイドラインを提供する。
関連論文リスト
- Characterizing Model Collapse in Large Language Models Using Semantic Networks and Next-Token Probability [4.841442157674423]
合成コンテンツがWebに浸透するにつれて、生成的AIモデルはオートファジーなプロセスを経験し、独自の出力を使って微調整される。
これはモデル崩壊と呼ばれる現象につながり、世代を重ねて生成するAIモデルの性能と多様性を低下させる。
近年の研究では、様々な生成AIモデルとデータタイプにまたがるモデル崩壊の出現について検討されている。
論文 参考訳(メタデータ) (2024-10-16T08:02:48Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Discriminative Multimodal Learning via Conditional Priors in Generative
Models [21.166519800652047]
本研究は,モデルトレーニングにおいて,すべてのモダリティとクラスラベルが利用できる現実的なシナリオについて研究する。
このシナリオでは、変動的な下界境界は、結合表現と欠測モダリティの間の相互情報を制限する。
論文 参考訳(メタデータ) (2021-10-09T17:22:24Z) - Closed-form Continuous-Depth Models [99.40335716948101]
連続深度ニューラルモデルは高度な数値微分方程式解法に依存している。
我々は,CfCネットワークと呼ばれる,記述が簡単で,少なくとも1桁高速な新しいモデル群を提示する。
論文 参考訳(メタデータ) (2021-06-25T22:08:51Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。