論文の概要: CTA-Flux: Integrating Chinese Cultural Semantics into High-Quality English Text-to-Image Communities
- arxiv url: http://arxiv.org/abs/2508.14405v1
- Date: Wed, 20 Aug 2025 04:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.33399
- Title: CTA-Flux: Integrating Chinese Cultural Semantics into High-Quality English Text-to-Image Communities
- Title(参考訳): CTA-Flux:中国文化意味論を高品質な英語テキスト・画像コミュニティに統合する
- Authors: Yue Gong, Shanyuan Liu, Liuzhuozheng Li, Jian Zhu, Bo Cheng, Liebucha Wu, Xiaoyu Wu, Yuhang Ma, Dawei Leng, Yuhui Yin,
- Abstract要約: 適応法は、中国語のテキスト入力を強力なテキスト・ツー・イメージ(TTI)生成モデルであるFluxに適合させる。
我々は、英語中心のTTIモデルコミュニティにおいて、互換性のある中国語の意味理解を橋渡しする新しい方法を提案する。
- 参考スコア(独自算出の注目度): 14.855163689517276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We proposed the Chinese Text Adapter-Flux (CTA-Flux). An adaptation method fits the Chinese text inputs to Flux, a powerful text-to-image (TTI) generative model initially trained on the English corpus. Despite the notable image generation ability conditioned on English text inputs, Flux performs poorly when processing non-English prompts, particularly due to linguistic and cultural biases inherent in predominantly English-centric training datasets. Existing approaches, such as translating non-English prompts into English or finetuning models for bilingual mappings, inadequately address culturally specific semantics, compromising image authenticity and quality. To address this issue, we introduce a novel method to bridge Chinese semantic understanding with compatibility in English-centric TTI model communities. Existing approaches relying on ControlNet-like architectures typically require a massive parameter scale and lack direct control over Chinese semantics. In comparison, CTA-flux leverages MultiModal Diffusion Transformer (MMDiT) to control the Flux backbone directly, significantly reducing the number of parameters while enhancing the model's understanding of Chinese semantics. This integration significantly improves the generation quality and cultural authenticity without extensive retraining of the entire model, thus maintaining compatibility with existing text-to-image plugins such as LoRA, IP-Adapter, and ControlNet. Empirical evaluations demonstrate that CTA-flux supports Chinese and English prompts and achieves superior image generation quality, visual realism, and faithful depiction of Chinese semantics.
- Abstract(参考訳): 我々は中国語テキストアダプタ・フラックス(CTA-Flux)を提案した。
適応法は、当初英語コーパスで訓練された強力なテキスト・ツー・イメージ(TTI)生成モデルであるFluxに中国語のテキスト入力を適合させる。
英語のテキスト入力に特筆すべき画像生成能力にもかかわらず、Fluxは非英語のプロンプトを処理する際には、特に主に英語中心のトレーニングデータセットに固有の言語的および文化的バイアスのために、性能が劣っている。
非英語のプロンプトを英語に翻訳したり、バイリンガルマッピングのための微調整のモデルに翻訳したりといった既存のアプローチは、文化的に特定の意味論を不十分に扱い、画像の真正性と品質を妥協させる。
この問題に対処するために、英語中心のTTIモデルコミュニティにおいて、中国語の意味理解と互換性を橋渡しする新しい手法を提案する。
ControlNetのようなアーキテクチャを頼りにしている既存のアプローチでは、大きなパラメータスケールが必要で、中国の意味論を直接コントロールできないのが一般的である。
対照的に、CTA-fluxはMultiModal Diffusion Transformer(MMDiT)を利用してFluxのバックボーンを直接制御し、モデルの中国語意味論の理解を高めながらパラメータの数を著しく削減する。
この統合により、モデル全体を広範囲に再トレーニングすることなく、生成の品質と文化の信頼性が大幅に向上し、LoRA、IP-Adapter、ControlNetといった既存のテキスト・ツー・イメージのプラグインとの互換性が維持される。
実証的な評価は、CTA-fluxが中国語と英語のプロンプトをサポートし、優れた画像生成品質、視覚的リアリズム、中国意味論の忠実な描写を実現していることを示している。
関連論文リスト
- Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。
コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。
提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文 参考訳(メタデータ) (2025-05-30T17:39:14Z) - Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model [69.09404597939744]
Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。
中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。
テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
論文 参考訳(メタデータ) (2025-03-10T17:58:33Z) - A Progressive Framework of Vision-language Knowledge Distillation and Alignment for Multilingual Scene [11.265838907079196]
概念的にシンプルだが効果的なCLIP圧縮フレームワークを提案し、中国語と英語の両方の文脈で、DC-CLIPと呼ばれる軽量な多言語視覚言語モデルを訓練する。
本研究では,高品質な中国語と英語のテキストイメージを収集し,多言語視覚言語の特徴蒸留とアライメントを含む2つの訓練段階を設計する。
ELEVATERベンチマークに基づくゼロショット画像分類における総合的な実験により、DC-CLIPは英語の文脈において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-04-17T10:56:06Z) - PAI-Diffusion: Constructing and Serving a Family of Open Chinese
Diffusion Models for Text-to-image Synthesis on the Cloud [54.046884854230555]
本稿では,中国語のテキスト・画像合成のための総合的なフレームワークであるPAI-Diffusionを紹介する。
一般とドメイン固有の中国語拡散モデルが組み込まれており、文脈に関連のある画像の生成を可能にしている。
Alibaba CloudのMachine Learning Platform for AIとシームレスに統合され、アクセス可能でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-11T15:18:28Z) - Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots [80.32906566894171]
英語の安定拡散を中国語に伝達する簡易かつ効果的な方法であるIAPを提案する。
IAPは、CLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立する。
実験結果から,本手法は,5%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-19T09:20:27Z) - GlyphDraw: Seamlessly Rendering Text with Intricate Spatial Structures
in Text-to-Image Generation [18.396131717250793]
GlyphDrawは、画像生成モデルに特定の言語に対して、テキストにコヒーレントに埋め込まれた画像を生成する能力を持たせることを目的とした、一般的な学習フレームワークである。
提案手法は,プロンプトのように正確な言語文字を生成するだけでなく,生成したテキストを背景にシームレスにブレンドする。
論文 参考訳(メタデータ) (2023-03-31T08:06:33Z) - ABINet++: Autonomous, Bidirectional and Iterative Language Modeling for
Scene Text Spotting [121.11880210592497]
言語モデルの限られた能力は,1)暗黙的な言語モデリング,2)一方向の特徴表現,3)雑音入力を伴う言語モデルから生じる。
シーンテキストスポッティングのための自律的で双方向かつ反復的なABINet++を提案する。
論文 参考訳(メタデータ) (2022-11-19T03:50:33Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。