論文の概要: PEA-Diffusion: Parameter-Efficient Adapter with Knowledge Distillation in non-English Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2311.17086v2
- Date: Wed, 24 Jul 2024 01:41:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 19:40:18.472146
- Title: PEA-Diffusion: Parameter-Efficient Adapter with Knowledge Distillation in non-English Text-to-Image Generation
- Title(参考訳): PEA拡散:非英語テキスト・画像生成における知識蒸留を用いたパラメータ効率の良い適応器
- Authors: Jian Ma, Chen Chen, Qingsong Xie, Haonan Lu,
- Abstract要約: 知識蒸留に基づくプラグアンドプレイ言語転送手法を提案する。
必要なのは、教師の知識蒸留の下で6Mパラメータしか持たない軽量なパラメータ効率アダプタ(PEA)を訓練することだけです。
UNetのパラメータの凍結は、言語固有のプロンプト評価セットにおいて、依然として顕著なパフォーマンスを達成できることに驚きます。
- 参考スコア(独自算出の注目度): 6.528169059491259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models are well-known for their ability to generate realistic images based on textual prompts. However, the existing works have predominantly focused on English, lacking support for non-English text-to-image models. The most commonly used translation methods cannot solve the generation problem related to language culture, while training from scratch on a specific language dataset is prohibitively expensive. In this paper, we are inspired to propose a simple plug-and-play language transfer method based on knowledge distillation. All we need to do is train a lightweight MLP-like parameter-efficient adapter (PEA) with only 6M parameters under teacher knowledge distillation along with a small parallel data corpus. We are surprised to find that freezing the parameters of UNet can still achieve remarkable performance on the language-specific prompt evaluation set, demonstrating that PEA can stimulate the potential generation ability of the original UNet. Additionally, it closely approaches the performance of the English text-to-image model on a general prompt evaluation set. Furthermore, our adapter can be used as a plugin to achieve significant results in downstream tasks in cross-lingual text-to-image generation. Code will be available at: https://github.com/OPPO-Mente-Lab/PEA-Diffusion
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデルは、テキスト・プロンプトに基づいてリアルな画像を生成する能力で有名である。
しかし、既存の作品は主に英語に焦点を当てており、非英語のテキスト・ツー・イメージモデルのサポートは欠如している。
最も一般的に使われている翻訳法は、言語文化に関連する生成問題を解くことはできないが、特定の言語データセットをスクラッチから学習することは違法に高価である。
本稿では,知識蒸留に基づく簡易なプラグアンドプレイ言語伝達法を提案する。
必要なのは、教師の知識の蒸留の下で6Mパラメータしか持たない軽量なMLP型パラメータ効率アダプタ(PEA)と、小さな並列データコーパスをトレーニングすることだけです。
UNetのパラメータの凍結は、言語固有のプロンプト評価セットにおいて依然として顕著な性能を達成できることに驚き、PEAが元のUNetの潜在的な生成能力を刺激できることを実証した。
さらに、一般的なプロンプト評価セットに基づいて、英語のテキスト・画像モデルの性能に近づいた。
さらに,このアダプタをプラグインとして使用することで,言語間テキスト・画像生成における下流タスクの重要な結果が得られる。
コードは、https://github.com/OPPO-Mente-Lab/PEA-Diffusionで利用可能になる。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation [21.154973705998945]
既存のメソッドは、入力プロンプトを表現するためにCLIPモデルのテキストエンコーダを利用する。
大規模言語モデル(LLM)は多言語入力を提供し、より長いコンテキストに対応し、優れたテキスト表現を実現する。
LLMのテキスト表現を用いたテキスト・ツー・イメージモデルの高速な訓練を可能にする軽量なアダプタを提案する。
論文 参考訳(メタデータ) (2024-05-21T16:35:02Z) - AltDiffusion: A Multilingual Text-to-Image Diffusion Model [4.534546889526814]
18の異なる言語をサポートする新しい多言語T2I拡散モデルAltDiffusionを提案する。
具体的には,知識蒸留に基づいて,まず多言語テキストエンコーダを訓練する。
次に、事前訓練された英語のみの拡散モデルにプラグインし、2段階のスキーマでモデルを訓練し、多言語機能を強化する。
論文 参考訳(メタデータ) (2023-08-19T11:52:12Z) - Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages [3.3227703089509304]
本稿では,MPLM を用いた視覚言語事前学習を未確認言語に適用するための,シンプルかつ効率的なアプローチを提案する。
我々のアプローチでは画像入力は必要とせず、主に機械翻訳を使用し、ターゲット言語データを必要としない。
論文 参考訳(メタデータ) (2023-06-29T08:20:57Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - Grounding Language Models to Images for Multimodal Inputs and Outputs [89.30027812161686]
本稿では,事前学習したテキストのみの言語モデルを視覚領域に最適化する効率的な手法を提案する。
任意にインターリーブされた画像とテキストデータを処理し、検索した画像とインターリーブされたテキストを生成する。
論文 参考訳(メタデータ) (2023-01-31T18:33:44Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。