論文の概要: MuLan: Adapting Multilingual Diffusion Models for Hundreds of Languages with Negligible Cost
- arxiv url: http://arxiv.org/abs/2412.01271v1
- Date: Mon, 02 Dec 2024 08:38:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:39.762857
- Title: MuLan: Adapting Multilingual Diffusion Models for Hundreds of Languages with Negligible Cost
- Title(参考訳): MuLan: 無視可能なコストで数百の言語に多言語拡散モデルを適用する
- Authors: Sen Xing, Muyan Zhong, Zeqiang Lai, Liangchen Li, Jiawen Liu, Yaohui Wang, Jifeng Dai, Wenhai Wang,
- Abstract要約: 多言語アノテーションによる高品質な画像に調整されたモデルとは異なり、広く利用可能なテキストエンコーダを活用することで、ノイズの多いインターネット画像とテキストのペアは、データの効率を大幅に向上させる。
我々は,20M未満のパラメータを持つ軽量言語アダプタであるMulan(Multi-Language Adapter)を導入し,凍結テキストエンコーダと画像拡散モデルを用いて訓練を行った。
- 参考スコア(独自算出の注目度): 39.43930856789352
- License:
- Abstract: In this work, we explore a cost-effective framework for multilingual image generation. We find that, unlike models tuned on high-quality images with multilingual annotations, leveraging text encoders pre-trained on widely available, noisy Internet image-text pairs significantly enhances data efficiency in text-to-image (T2I) generation across multiple languages. Based on this insight, we introduce MuLan, Multi-Language adapter, a lightweight language adapter with fewer than 20M parameters, trained alongside a frozen text encoder and image diffusion model. Compared to previous multilingual T2I models, this framework offers: (1) Cost efficiency. Using readily accessible English data and off-the-shelf multilingual text encoders minimizes the training cost; (2) High performance. Achieving comparable generation capabilities in over 110 languages with CLIP similarity scores nearly matching those in English (38.61 for English vs. 37.61 for other languages); and (3) Broad applicability. Seamlessly integrating with compatible community tools like LoRA, LCM, ControlNet, and IP-Adapter, expanding its potential use cases.
- Abstract(参考訳): 本研究では,多言語画像生成のための費用対効果の枠組みについて検討する。
複数の言語にまたがるテキスト・ツー・イメージ(T2I)生成において,多言語アノテーションを用いた高品質な画像に調整されたモデルとは異なり,ノイズの多いインターネット画像・テキスト・ペアは,テキスト・ツー・イメージ(T2I)生成におけるデータ効率を大幅に向上させる。
この知見に基づき,2000万パラメータ未満の軽量言語アダプタであるMulan,Multi-Language Adapterを導入し,凍結テキストエンコーダと画像拡散モデルを用いて訓練を行った。
従来の多言語T2Iモデルと比較して、このフレームワークは、(1)コスト効率を提供する。
アクセシブルな英語データとオフザシェルフ多言語テキストエンコーダを使用することで、トレーニングコストを最小化できる。
CLIPの類似性を持つ110以上の言語で同等の生成能力を得るには、英語(38.61は英語、37.61は他言語)とほぼ一致している。
LoRA、LCM、ControlNet、IP-Adapterといった互換性のあるコミュニティツールとの統合は、潜在的なユースケースを拡張します。
関連論文リスト
- mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。
本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。
ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-04-17T10:56:06Z) - PEA-Diffusion: Parameter-Efficient Adapter with Knowledge Distillation in non-English Text-to-Image Generation [6.528169059491259]
知識蒸留に基づくプラグアンドプレイ言語転送手法を提案する。
必要なのは、教師の知識蒸留の下で6Mパラメータしか持たない軽量なパラメータ効率アダプタ(PEA)を訓練することだけです。
UNetのパラメータの凍結は、言語固有のプロンプト評価セットにおいて、依然として顕著なパフォーマンスを達成できることに驚きます。
論文 参考訳(メタデータ) (2023-11-28T02:31:52Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs [50.17767479660832]
視覚言語モデル(Vision-LLMs)は、事前訓練された画像エンコーダを(凍結した)大型言語モデル(LLMs)とポストホック条件LLMsに整合させ、画像入力を理解する。
我々は,マルチ言語LLMを利用した最初のビジョン-LLMであるmBLIPを,コンシューマレベルのハードウェア上で計算的に効率よく提供する。
論文 参考訳(メタデータ) (2023-07-13T17:51:58Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations [53.89380284760555]
Babel-ImageNetは,100言語へのイメージネットラベルの部分的翻訳を提供する,多言語ベンチマークである。
我々は,11の公開多言語CLIPモデルをベンチマークで評価し,イングリッシュイメージネットの性能と高ソース言語との差を顕著に示した。
パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。