論文の概要: Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots
- arxiv url: http://arxiv.org/abs/2305.11540v1
- Date: Fri, 19 May 2023 09:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 15:17:27.725594
- Title: Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots
- Title(参考訳): 画像を用いた中国語安定拡散の多言語間移動
- Authors: Jinyi Hu, Xu Han, Xiaoyuan Yi, Yutong Chen, Wenhao Li, Zhiyuan Liu,
Maosong Sun
- Abstract要約: 英語の安定拡散を中国語に伝達する簡易かつ効果的な方法であるIAPを提案する。
IAPは、CLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立する。
実験結果から,本手法は,5%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 80.32906566894171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have made impressive progress in text-to-image synthesis.
However, training such large-scale models (e.g. Stable Diffusion), from scratch
requires high computational costs and massive high-quality text-image pairs,
which becomes unaffordable in other languages. To handle this challenge, we
propose IAP, a simple but effective method to transfer English Stable Diffusion
into Chinese. IAP optimizes only a separate Chinese text encoder with all other
parameters fixed to align Chinese semantics space to the English one in CLIP.
To achieve this, we innovatively treat images as pivots and minimize the
distance of attentive features produced from cross-attention between images and
each language respectively. In this way, IAP establishes connections of
Chinese, English and visual semantics in CLIP's embedding space efficiently,
advancing the quality of the generated image with direct Chinese prompts.
Experimental results show that our method outperforms several strong Chinese
diffusion models with only 5%~10% training data.
- Abstract(参考訳): 拡散モデルはテキストと画像の合成において顕著な進歩を遂げた。
しかし、そのような大規模モデル(例えば安定拡散)をスクラッチからトレーニングするには、高い計算コストと大量の高品質のテキスト画像ペアが必要である。
この課題に対処するために、英語の安定拡散を中国語に転送する簡易かつ効果的な方法であるIAPを提案する。
IAPは中国語のテキストエンコーダのみを最適化し、他のすべてのパラメータはCLIPで中国語のセマンティクス空間を英語のエンコーダに合わせるように固定されている。
これを実現するために,画像をピボットとして革新的に扱い,画像と言語間の交差から生じる注意的特徴の距離を最小化する。
このようにして、IAPはCLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立し、生成した画像の品質を直接中国語のプロンプトで向上させる。
実験の結果,本手法は,5%~10%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていた。
関連論文リスト
- Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。
我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。
実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-17T08:40:51Z) - Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding [57.22231959529641]
Hunyuan-DiTは、英語と中国語の両方を詳細に理解したテキスト・画像拡散変換器である。
詳細な言語理解のために、画像のキャプションを洗練させるためにマルチモーダル大言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-14T16:33:25Z) - A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。
本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。
ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-04-17T10:56:06Z) - Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support [35.17427411750043]
中国語と英語のバイリンガル・テキスト・ツー・イメージ・モデルであるTaiyi-Diffusion-XLを提案する。
CLIPとStable-Diffusion-XLの能力をバイリンガル連続事前学習のプロセスにより拡張する。
両言語画像テキスト検索においてCLIPモデルが優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-01-26T07:17:50Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - PAI-Diffusion: Constructing and Serving a Family of Open Chinese
Diffusion Models for Text-to-image Synthesis on the Cloud [54.046884854230555]
本稿では,中国語のテキスト・画像合成のための総合的なフレームワークであるPAI-Diffusionを紹介する。
一般とドメイン固有の中国語拡散モデルが組み込まれており、文脈に関連のある画像の生成を可能にしている。
Alibaba CloudのMachine Learning Platform for AIとシームレスに統合され、アクセス可能でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-11T15:18:28Z) - Parameter-Efficient Cross-lingual Transfer of Vision and Language Models
via Translation-based Alignment [31.885608173448368]
CLIPのような事前訓練された視覚と言語モデルは、画像とテキストを英語のテキストに焦点を合わせることに顕著な成功を収めた。
異なる言語間のパフォーマンスの格差は、不均一なリソース可用性のために観測されている。
翻訳に基づくアライメント手法を用いて,多言語差を緩和するパラメータ効率のよい多言語間移動学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-02T14:09:02Z) - Shifted Diffusion for Text-to-image Generation [65.53758187995744]
Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。
Corgiはまた、ダウンストリーム言語フリーのテキスト画像生成タスク上で、さまざまなデータセットにまたがる最先端の新たな結果も達成している。
論文 参考訳(メタデータ) (2022-11-24T03:25:04Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。