論文の概要: Bridge Diffusion Model: bridge non-English language-native text-to-image
diffusion model with English communities
- arxiv url: http://arxiv.org/abs/2309.00952v1
- Date: Sat, 2 Sep 2023 14:30:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:07:10.224122
- Title: Bridge Diffusion Model: bridge non-English language-native text-to-image
diffusion model with English communities
- Title(参考訳): ブリッジ拡散モデル:非英語母語テキスト・画像拡散モデルと英語コミュニティとの橋渡し
- Authors: Shanyuan Liu, Dawei Leng, Yuhui Yin
- Abstract要約: 橋梁拡散モデル(BDM)と呼ばれる新しいモデル構造を提案する。
BDMは非英語のセマンティクスを学習し、潜伏空間を英語ネイティブのTTIバックボーンと互換性を保つ。
BDMは、非英語のネイティブセマンティクスと英語のネイティブセマンティクスを組み合わせたコンテンツをシームレスに生成することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image generation (TTI) technologies are advancing rapidly, especially
in the English language communities. However, English-native TTI models
inherently carry biases from English world centric training data, which creates
a dilemma for development of other language-native TTI models. One common
choice is fine-tuning the English-native TTI model with translated samples from
non-English communities. It falls short of fully addressing the model bias
problem. Alternatively, training non-English language native models from
scratch can effectively resolve the English world bias, but diverges from the
English TTI communities, thus not able to utilize the strides continuously
gaining in the English TTI communities any more. To build non-English language
native TTI model meanwhile keep compatability with the English TTI communities,
we propose a novel model structure referred as "Bridge Diffusion Model" (BDM).
The proposed BDM employs a backbone-branch network structure to learn the
non-English language semantics while keep the latent space compatible with the
English-native TTI backbone, in an end-to-end manner. The unique advantages of
the proposed BDM are that it's not only adept at generating images that
precisely depict non-English language semantics, but also compatible with
various English-native TTI plugins, such as different checkpoints, LoRA,
ControlNet, Dreambooth, and Textual Inversion, etc. Moreover, BDM can
concurrently generate content seamlessly combining both non-English native and
English-native semantics within a single image, fostering cultural interaction.
We verify our method by applying BDM to build a Chinese-native TTI model,
whereas the method is generic and applicable to any other language.
- Abstract(参考訳): テキストから画像への生成(tti)技術は、特に英語コミュニティにおいて急速に進歩している。
しかし、英語ネイティブのTTIモデルは本質的に、英語世界中心のトレーニングデータからのバイアスを持ち、他の言語ネイティブのTTIモデルを開発するためのジレンマを生成する。
一般的な選択は、非英語コミュニティから翻訳されたサンプルを用いて、英語ネイティブのTTIモデルを微調整することである。
モデルバイアス問題を完全に解決するに足りません。
あるいは、英語以外のネイティブモデルをスクラッチからトレーニングすることは、英語の世界偏見を効果的に解決することができるが、英語のTTIコミュニティから分離することで、英語のTTIコミュニティで継続的に得られる進歩を活用できない。
英語のTTIコミュニティとの互換性を維持しつつ、非英語のネイティブTTIモデルを構築するために、「ブリッジ拡散モデル」(BDM)と呼ばれる新しいモデル構造を提案する。
提案したBDMは,非英語のセマンティクスを学習するためにバックボーンとブランチのネットワーク構造を用いて,英語のネイティブなTTIバックボーンとの互換性を維持しながら,エンドツーエンドに学習する。
提案されたBDMのユニークな利点は、非英語のセマンティクスを正確に描写するイメージを生成するだけでなく、様々なチェックポイント、LoRA、コントロールネット、ドリームブート、テキストインバージョンなど、様々な英語ネイティブのTTIプラグインと互換性があることである。
さらに、BDMは、非英語のネイティブセマンティクスと英語のネイティブセマンティクスを1つの画像内でシームレスに組み合わせたコンテンツを同時に生成し、文化的相互作用を促進する。
提案手法は中国語ネイティブTTIモデルの構築にBDMを適用して検証するが,本手法は他の言語にも適用可能である。
関連論文リスト
- MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Learning to translate by learning to communicate [11.43638897327485]
我々は,最新のunsupervised NMTシステムを改善するために,事前学習された多言語モデルを用いてEmergent Communication (EC)を使用する手法を定式化し,検証する。
提案手法では,多言語モデルを用いて視覚的なタスクを遂行するために,多言語世代をインセンティブとしたEC画像参照ゲームに,多言語モデルを組み込む。
本報告では,2種類のECファインチューニング(Steinert-Threlkeld et al., 2022)について述べる。
論文 参考訳(メタデータ) (2022-07-14T15:58:06Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - Multilingual Text Classification for Dravidian Languages [4.264592074410622]
そこで我々はDravidian言語のための多言語テキスト分類フレームワークを提案する。
一方、フレームワークはLaBSE事前訓練モデルをベースモデルとして使用した。
一方,モデルが言語間の相関を十分に認識・活用できないという問題を考慮し,さらに言語固有の表現モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-03T04:26:49Z) - Revisiting CNN for Highly Inflected Bengali and Hindi Language Modeling [0.5382679710017696]
そこで本研究では,CNNアーキテクチャと名づけられた,エンド・ツー・エンドのトレーニング可能なメモリ効率の高いCNNアーキテクチャを提案する。
特に、単語と文レベルで学習可能な2つの畳み込みサブモデルを導入する。
我々は、事前訓練されたBERTを含む最先端(SOTA)トランスフォーマーモデルが、必ずしもベンガルとヒンディーにとって最高の性能をもたらすとは限らないことを示す。
論文 参考訳(メタデータ) (2021-10-25T15:14:42Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。