論文の概要: NeoBabel: A Multilingual Open Tower for Visual Generation
- arxiv url: http://arxiv.org/abs/2507.06137v1
- Date: Tue, 08 Jul 2025 16:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.338327
- Title: NeoBabel: A Multilingual Open Tower for Visual Generation
- Title(参考訳): NeoBabel - ビジュアル生成のための多言語オープンタワー
- Authors: Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek,
- Abstract要約: 我々は,新しい多言語画像生成フレームワークNeoBabelを紹介する。
英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートしている。
それは、強い英語能力を維持しながら、最先端の多言語のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 32.79724699684266
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-to-image generation advancements have been predominantly English-centric, creating barriers for non-English speakers and perpetuating digital inequities. While existing systems rely on translation pipelines, these introduce semantic drift, computational overhead, and cultural misalignment. We introduce NeoBabel, a novel multilingual image generation framework that sets a new Pareto frontier in performance, efficiency and inclusivity, supporting six languages: English, Chinese, Dutch, French, Hindi, and Persian. The model is trained using a combination of large-scale multilingual pretraining and high-resolution instruction tuning. To evaluate its capabilities, we expand two English-only benchmarks to multilingual equivalents: m-GenEval and m-DPG. NeoBabel achieves state-of-the-art multilingual performance while retaining strong English capability, scoring 0.75 on m-GenEval and 0.68 on m-DPG. Notably, it performs on par with leading models on English tasks while outperforming them by +0.11 and +0.09 on multilingual benchmarks, even though these models are built on multilingual base LLMs. This demonstrates the effectiveness of our targeted alignment training for preserving and extending crosslingual generalization. We further introduce two new metrics to rigorously assess multilingual alignment and robustness to code-mixed prompts. Notably, NeoBabel matches or exceeds English-only models while being 2-4x smaller. We release an open toolkit, including all code, model checkpoints, a curated dataset of 124M multilingual text-image pairs, and standardized multilingual evaluation protocols, to advance inclusive AI research. Our work demonstrates that multilingual capability is not a trade-off but a catalyst for improved robustness, efficiency, and cultural fidelity in generative AI.
- Abstract(参考訳): テキスト・ツー・イメージ・ジェネレーションの進歩は、主に英語中心であり、非英語話者の障壁を形成し、デジタル不平等を持続させる。
既存のシステムは翻訳パイプラインに依存しているが、これらはセマンティックドリフト、計算オーバーヘッド、文化的なミスアライメントを導入している。
このフレームワークは、英語、中国語、オランダ語、フランス語、ヒンディー語、ペルシア語という6つの言語をサポートする。
このモデルは、大規模多言語事前学習と高分解能命令チューニングを組み合わせて訓練される。
その能力を評価するため、英語のみのベンチマークをm-GenEvalとm-DPGの2つに拡張した。
NeoBabelは、m-GenEvalで0.75、m-DPGで0.68、強い英語能力を維持しながら、最先端の多言語パフォーマンスを実現している。
特に、これらのモデルは多言語ベースLLM上に構築されているにもかかわらず、多言語ベンチマークにおいて+0.11と+0.09よりも優れた性能を保ちながら、英語タスクにおける主要なモデルと同等の性能を発揮する。
これにより,多言語一般化の保存と拡張を目的としたアライメントトレーニングの有効性が示された。
さらに、コード混合プロンプトに対する多言語アライメントとロバスト性を厳格に評価する2つの新しい指標を導入します。
特に、NeoBabelは英語のみのモデルと2-4倍のサイズで一致または超えている。
すべてのコード、モデルチェックポイント、124Mの多言語テキストイメージペアのキュレートされたデータセット、そしてAI研究を進歩させるために標準化された多言語評価プロトコルを含むオープンツールキットをリリースする。
我々の研究は、多言語能力はトレードオフではなく、生成AIにおける堅牢性、効率、文化的忠実性を改善する触媒であることを示した。
関連論文リスト
- CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Improving Massively Multilingual Neural Machine Translation and
Zero-Shot Translation [81.7786241489002]
ニューラルネットワーク翻訳(NMT)の多言語モデルは理論的には魅力的であるが、しばしばバイリンガルモデルに劣る。
我々は,多言語NMTが言語ペアをサポートするためにより強力なモデリング能力を必要とすることを論じる。
未知のトレーニング言語ペアの翻訳を強制するために,ランダムなオンライン翻訳を提案する。
論文 参考訳(メタデータ) (2020-04-24T17:21:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。