論文の概要: Translation-Enhanced Multilingual Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2305.19216v1
- Date: Tue, 30 May 2023 17:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:44:51.378436
- Title: Translation-Enhanced Multilingual Text-to-Image Generation
- Title(参考訳): 翻訳強調多言語テキスト対画像生成
- Authors: Yaoyiran Li, Ching-Yun Chang, Stephen Rawls, Ivan Vuli\'c, Anna
Korhonen
- Abstract要約: テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
- 参考スコア(独自算出の注目度): 61.41730893884428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on text-to-image generation (TTI) still predominantly focuses on the
English language due to the lack of annotated image-caption data in other
languages; in the long run, this might widen inequitable access to TTI
technology. In this work, we thus investigate multilingual TTI (termed mTTI)
and the current potential of neural machine translation (NMT) to bootstrap mTTI
systems. We provide two key contributions. 1) Relying on a multilingual
multi-modal encoder, we provide a systematic empirical study of standard
methods used in cross-lingual NLP when applied to mTTI: Translate Train,
Translate Test, and Zero-Shot Transfer. 2) We propose Ensemble Adapter (EnsAd),
a novel parameter-efficient approach that learns to weigh and consolidate the
multilingual text knowledge within the mTTI framework, mitigating the language
gap and thus improving mTTI performance. Our evaluations on standard mTTI
datasets COCO-CN, Multi30K Task2, and LAION-5B demonstrate the potential of
translation-enhanced mTTI systems and also validate the benefits of the
proposed EnsAd which derives consistent gains across all datasets. Further
investigations on model variants, ablation studies, and qualitative analyses
provide additional insights on the inner workings of the proposed mTTI
approaches.
- Abstract(参考訳): テキスト対画像生成(tti: text-to-image generation)の研究は、他の言語でアノテートされた画像データがないため、依然として英語に重点を置いている。
本研究では,多言語TTI (termed mTTI) とニューラルマシン翻訳 (NMT) によるmTTIシステムのブートストラップの可能性について検討する。
重要な貢献は2つあります。
1) 多言語マルチモーダルエンコーダをベースとして,mTTIの翻訳列車,翻訳試験,ゼロショット転送に適用する場合に,多言語NLPで使用される標準手法の系統的研究を行った。
2) Ensemble Adapter (EnsAd) は,mTTIフレームワーク内での多言語テキスト知識の重み付けと統合を学習し,言語ギャップを緩和し,mTTI性能を向上させる新しいパラメータ効率向上手法である。
標準mTTIデータセットであるCOCO-CN,Multi30K Task2,LAION-5Bの評価は,翻訳強化mTTIシステムの可能性を実証し,全データセット間で一貫した利得を導出するEnsAdの利点を検証する。
モデル変種、アブレーション研究、定性的分析に関するさらなる研究は、提案したmTTIアプローチの内部動作に関するさらなる洞察を提供する。
関連論文リスト
- Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Learning Domain Specific Language Models for Automatic Speech
Recognition through Machine Translation [0.0]
我々は、タスク固有のテキストデータの翻訳を最初に取得するために、中間ステップとしてNeural Machine Translationを使用します。
我々はNMTビームサーチグラフから単語混乱ネットワークを導出する手法を開発した。
NMT混在ネットワークは、n-gramと繰り返しニューラルネットワークLMの両方の難易度を低減するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-21T10:29:20Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - Multi-task Learning for Multilingual Neural Machine Translation [32.81785430242313]
本稿では,bitextデータ上での翻訳タスクと,モノリンガルデータ上での2つの認知タスクを併用してモデルを学習するマルチタスク学習フレームワークを提案する。
提案手法は,高リソース言語と低リソース言語の両方の翻訳品質を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-10-06T06:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。