論文の概要: PAI-Diffusion: Constructing and Serving a Family of Open Chinese
Diffusion Models for Text-to-image Synthesis on the Cloud
- arxiv url: http://arxiv.org/abs/2309.05534v1
- Date: Mon, 11 Sep 2023 15:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 11:58:50.613388
- Title: PAI-Diffusion: Constructing and Serving a Family of Open Chinese
Diffusion Models for Text-to-image Synthesis on the Cloud
- Title(参考訳): PAI拡散:クラウド上でのテキスト-画像合成のためのオープン中国拡散モデルの家族の構築と実現
- Authors: Chengyu Wang, Zhongjie Duan, Bingyan Liu, Xinyi Zou, Cen Chen, Kui
Jia, Jun Huang
- Abstract要約: 本稿では,中国語のテキスト・画像合成のための総合的なフレームワークであるPAI-Diffusionを紹介する。
一般とドメイン固有の中国語拡散モデルが組み込まれており、文脈に関連のある画像の生成を可能にしている。
Alibaba CloudのMachine Learning Platform for AIとシームレスに統合され、アクセス可能でスケーラブルなソリューションを提供する。
- 参考スコア(独自算出の注目度): 54.046884854230555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis for the Chinese language poses unique challenges due
to its large vocabulary size, and intricate character relationships. While
existing diffusion models have shown promise in generating images from textual
descriptions, they often neglect domain-specific contexts and lack robustness
in handling the Chinese language. This paper introduces PAI-Diffusion, a
comprehensive framework that addresses these limitations. PAI-Diffusion
incorporates both general and domain-specific Chinese diffusion models,
enabling the generation of contextually relevant images. It explores the
potential of using LoRA and ControlNet for fine-grained image style transfer
and image editing, empowering users with enhanced control over image
generation. Moreover, PAI-Diffusion seamlessly integrates with Alibaba Cloud's
Machine Learning Platform for AI, providing accessible and scalable solutions.
All the Chinese diffusion model checkpoints, LoRAs, and ControlNets, including
domain-specific ones, are publicly available. A user-friendly Chinese WebUI and
the diffusers-api elastic inference toolkit, also open-sourced, further
facilitate the easy deployment of PAI-Diffusion models in various environments,
making it a valuable resource for Chinese text-to-image synthesis.
- Abstract(参考訳): 中国語のテキスト・ツー・イメージ合成は、大きな語彙サイズと複雑な文字関係のため、独特な課題を生んでいる。
既存の拡散モデルでは、テキスト記述から画像を生成することは約束されているが、ドメイン固有の文脈を無視することが多く、中国語を扱いにくい。
本稿では,これらの制約に対処する包括的フレームワークであるPAI-Diffusionを紹介する。
PAI-Diffusionは、一般とドメイン固有の中国の拡散モデルの両方を取り入れ、文脈に関連のある画像の生成を可能にする。
画像スタイルの微細な転送と画像編集にLoRAとControlNetを使用する可能性を探究し、画像生成の制御が強化されたユーザを力づける。
さらに、PAI-DiffusionはAlibaba CloudのMachine Learning Platform for AIとシームレスに統合され、アクセス可能でスケーラブルなソリューションを提供する。
ドメイン固有のものを含む、すべての中国の拡散モデルチェックポイント、LoRA、コントロールネットが公開されている。
ユーザフレンドリーな中国のWebUIとdiffusers-api弾性推論ツールキットもオープンソース化され、PAI-Diffusionモデルの様々な環境への展開が容易になり、中国語のテキスト・画像合成に有用なリソースとなっている。
関連論文リスト
- Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。
我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。
専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文 参考訳(メタデータ) (2024-11-22T21:38:51Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Taiyi-Diffusion-XL: Advancing Bilingual Text-to-Image Generation with Large Vision-Language Model Support [35.17427411750043]
中国語と英語のバイリンガル・テキスト・ツー・イメージ・モデルであるTaiyi-Diffusion-XLを提案する。
CLIPとStable-Diffusion-XLの能力をバイリンガル連続事前学習のプロセスにより拡張する。
両言語画像テキスト検索においてCLIPモデルが優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-01-26T07:17:50Z) - ZRIGF: An Innovative Multimodal Framework for Zero-Resource
Image-Grounded Dialogue Generation [17.310200022696016]
ZRIGFは2段階の学習戦略を実装し、対照的な事前学習と生成的事前学習を含む。
テキストベースと画像グラウンドの対話データセットを用いた総合的な実験は、ZRIGFが文脈的に関連する情報的応答を生成するのに有効であることを示す。
論文 参考訳(メタデータ) (2023-08-01T09:28:36Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal
Image Generation [21.455774034659978]
MultiFusionは、複数のモダリティと言語を任意にインターリーブした入力で複雑な概念を表現することができる。
MutliFusionは、事前訓練されたモデルを活用し、それらを結合システムに統合するために調整する。
論文 参考訳(メタデータ) (2023-05-24T16:22:18Z) - Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots [80.32906566894171]
英語の安定拡散を中国語に伝達する簡易かつ効果的な方法であるIAPを提案する。
IAPは、CLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立する。
実験結果から,本手法は,5%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-19T09:20:27Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。