論文の概要: Multilingual-To-Multimodal (M2M): Unlocking New Languages with Monolingual Text
- arxiv url: http://arxiv.org/abs/2601.10096v1
- Date: Thu, 15 Jan 2026 05:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.008959
- Title: Multilingual-To-Multimodal (M2M): Unlocking New Languages with Monolingual Text
- Title(参考訳): マルチリンガル・トゥ・マルチモーダル(M2M):モノリンガルテキストで新しい言語をアンロックする
- Authors: Piyush Singh Pasi,
- Abstract要約: マルチモーダルモデルは、豊富な画像テキストとオーディオテキストデータによってサポートされているが、他の言語では性能が急激に低下する。
既存のソリューションは機械翻訳に大きく依存しているが、多言語テキストモデリングの進歩は未利用のままである。
我々は,多言語テキストの埋め込みをマルチモーダル空間にマッピングするために,英語テキストのみを用いて少数の線形層のみを学習する軽量アライメント手法METALを紹介する。
- 参考スコア(独自算出の注目度): 1.3343730111342615
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal models excel in English, supported by abundant image-text and audio-text data, but performance drops sharply for other languages due to limited multilingual multimodal resources. Existing solutions rely heavily on machine translation, while advances in multilingual text modeling remain underutilized. We introduce METAL, a lightweight alignment method that learns only a few linear layers using English text alone to map multilingual text embeddings into a multimodal space. Despite its simplicity, METAL matches baseline performance in English (94.9 percent Recall at 10) and achieves strong zero-shot transfer (89.5 percent Recall at 10 averaged across 11 languages, 10 unseen) on XTD text-to-image retrieval. Qualitative t-SNE visualizations show that multilingual embeddings align tightly with multimodal representations, while weight analysis reveals that the transformation reshapes embedding geometry rather than performing trivial rotations. Beyond image-text retrieval, METAL generalizes to audio-text retrieval and cross-lingual text-to-image generation. We release code and checkpoints at https://github.com/m2m-codebase/M2M , as well as multilingual evaluation datasets including MSCOCO Multilingual 30K (https://huggingface.co/datasets/piyushsinghpasi/mscoco-multilingual-30k ), AudioCaps Multilingual (https://huggingface.co/datasets/piyushsinghpasi/audiocaps-multilingual ), and Clotho Multilingual (https://huggingface.co/datasets/piyushsinghpasi/clotho-multilingual ), to facilitate further research.
- Abstract(参考訳): マルチモーダルモデルは、豊富な画像テキストとオーディオテキストデータによってサポートされた英語で優れているが、多言語マルチモーダルリソースの制限により、他の言語では性能が大幅に低下する。
既存のソリューションは機械翻訳に大きく依存しているが、多言語テキストモデリングの進歩は未利用のままである。
我々は,多言語テキストの埋め込みをマルチモーダル空間にマッピングするために,英語テキストのみを用いて少数の線形層のみを学習する軽量アライメント手法METALを紹介する。
その単純さにもかかわらず、METALは英語のベースラインのパフォーマンス(94.9%のリコール、10でリコール)と一致し、XTDのテキスト・ツー・イメージ検索において強いゼロ・ショット・トランスファー(89.5%のリコール、11言語で平均10回、見当たらない10回)を達成している。
定性的t-SNE視覚化では、多言語埋め込みがマルチモーダル表現と密に一致していることが示され、一方で重み解析では、変換が自明な回転を行うのではなく、埋め込み幾何学を再現することを示している。
画像-テキスト検索以外にも、METALは音声-テキスト検索と言語間テキスト-画像生成に一般化している。
MSCOCO Multilingual 30K (https://huggingface.co/datasets/piyushsinghpasi/mscoco-multilingual-30k )、AudioCaps Multilingual (https://huggingface.co/datasets/piyushsinghpasi/audiocaps-multilingual )、Closo Multilingual (https://huggingface.co/datasets/piyushsinghpasi/clotho-multilingual )などの多言語評価データセットとともに、https://huggingface.co/datasets/piyushsinghpasi/clotho-multilingual ) でコードとチェックポイントをリリースしています。
関連論文リスト
- uCLIP: Parameter-Efficient Multilingual Extension of Vision-Language Models with Unpaired Data [3.364569898365253]
我々は多言語視覚言語アライメントのための軽量でデータ効率の良いフレームワークを提案する。
本手法では,画像テキストペアやテキストペアは必要とせず,事前訓練された画像エンコーダと多言語テキストエンコーダの両方を凍結する。
この最小限のトレーニング設定は、監督が限られている言語でも堅牢な多言語アライメントを可能にする。
論文 参考訳(メタデータ) (2025-11-17T06:34:49Z) - mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
マルチモーダル大規模言語モデル(mLLM)は大量のテキストイメージデータに基づいて訓練される。
mOSCARは、ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスである。
163言語、303M文書、200Bトークン、1.15B画像を含む。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Towards Zero-shot Cross-lingual Image Retrieval and Tagging [1.4425878137951236]
テキスト側での言語間事前学習を用いたマルチモーダル表現学習のためのゼロショットアプローチを提案する。
クラウドソーシングプラットフォームを用いて収集した7言語に,新たに1Kの多言語MSCOCO2014キャプションテストデータセット(XTD10)を導入する。
また、多言語画像タグ付けのような下流タスクに対して、ゼロショット方式で言語間モデルをいかに使用できるかを実証する。
論文 参考訳(メタデータ) (2021-09-15T23:39:15Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z) - Towards Zero-shot Cross-lingual Image Retrieval [2.5110144299197716]
テキスト側での言語間事前学習を用いたマルチモーダル表現学習のためのゼロショットアプローチを提案する。
また、異なるテキストを互いにプッシュすることで、テキスト埋め込みクラスタを強化できる新たな目的関数も導入する。
これをテストセットとして、言語間でゼロショットモデルのパフォーマンスを評価するために使用します。
論文 参考訳(メタデータ) (2020-11-24T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。