論文の概要: CACARA: Cross-Modal Alignment Leveraging a Text-Centric Approach for Cost-Effective Multimodal and Multilingual Learning
- arxiv url: http://arxiv.org/abs/2512.00496v1
- Date: Sat, 29 Nov 2025 14:04:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.267592
- Title: CACARA: Cross-Modal Alignment Leveraging a Text-Centric Approach for Cost-Effective Multimodal and Multilingual Learning
- Title(参考訳): CACARA: コスト効果のあるマルチモーダル・マルチ言語学習のためのテキスト中心アプローチを活用したクロスモーダルアライメント
- Authors: Diego A. B. Moreira, Alef I. Ferreira, Jhessica Silva, Gabriel O. dos Santos, Gustavo Bonil, João Gondim, Marina dos Santos, Helena Maia, Simone Hashiguti, Nádia da Silva, Carolina Scarton, Helio Pedrini, Sandra Avila,
- Abstract要約: 本稿では,創発的アライメント学習を通じて学習したマルチモーダル・マルチ言語アーキテクチャであるCACARAを提案する。
新たに導入されたモダリティを英語と整合したデータのみに微調整することで,100以上の言語をサポートするモデルを開発した。
我々の戦略は、R@1音声テキスト検索における14.24ポイントの改善を実現し、最先端のマルチモーダルモデルより優れている。
- 参考スコア(独自算出の注目度): 6.162206820356373
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As deep learning models evolve, new applications and challenges are rapidly emerging. Tasks that once relied on a single modality, such as text, images, or audio, are now enriched by seamless interactions between multimodal data. These connections bridge information gaps: an image can visually materialize a text, while audio can add context to an image. Researchers have developed numerous multimodal models, but most rely on resource-intensive training across multiple modalities. Similarly, extending these models to new languages often follows the same resource-heavy training strategy. In this work, we propose a multimodal and multilingual architecture, CACARA, trained through emergent alignment learning, enabling the seamless integration of new modalities into an existing bimodal/multimodal model without requiring full retraining. This work breaks new ground by demonstrating that this emergent alignment paradigm can unlock multilingual capabilities from monolingual training. By fine-tuning the newly incorporated modality only on data aligned with the English language, our model develops support for over 100 languages without explicit multilingual pretraining or tuning of the text encoder. Such emergent multimodal and multilingual properties are gained efficiently, preserving previously learned knowledge at a training cost comparable to that of a monolingual model. Our strategy achieves up to a 14.24 percentage points improvement in R@1 audio-to-text retrieval, outperforming state-of-the-art multimodal models -- all without the heavy computational cost of retraining across every modality and language.
- Abstract(参考訳): ディープラーニングモデルが進化するにつれて、新しいアプリケーションや課題が急速に現れています。
かつてはテキスト、画像、オーディオのような単一のモダリティに依存していたタスクは、今ではマルチモーダルデータ間のシームレスな相互作用によって豊かになっている。
画像はテキストを視覚的に実体化でき、音声は画像にコンテキストを追加することができる。
研究者は多数のマルチモーダルモデルを開発したが、ほとんどの場合、複数のモダリティにわたるリソース集約的なトレーニングに依存している。
同様に、これらのモデルを新しい言語に拡張することは、しばしば同じリソース量の多いトレーニング戦略に従う。
本研究では,創発的なアライメント学習を通じて学習したマルチモーダル・マルチランガルアーキテクチャであるCACARAを提案し,新しいモダリティを完全リトレーニングを必要とせずに既存のバイモーダル・マルチモーダルモデルにシームレスに統合する。
この作業は、この創発的なアライメントパラダイムが、モノリンガルトレーニングから多言語機能をアンロックできることを実証することによって、新たな基盤を壊します。
新たに組み込まれたモダリティを英語と整合したデータのみに微調整することにより、テキストエンコーダの明示的な多言語事前学習やチューニングを行わず、100以上の言語をサポートすることができる。
このような創発的マルチモーダル特性と多言語特性は効率よく得られ、単言語モデルに匹敵する訓練コストで事前学習した知識を保存できる。
我々の戦略は、R@1音声からテキストへの検索において最大14.24ポイントの改善を達成し、最先端のマルチモーダルモデルよりも優れている。
関連論文リスト
- jina-clip-v2: Multilingual Multimodal Embeddings for Text and Images [5.753626355995653]
jina-clip-v2は、テキストペア、三つ子、画像-テキストペアで訓練された対照的な視覚言語モデルである。
我々は、多言語テキストエンコーダを使用し、29の非英語言語からの多言語テキストを含む訓練データセットを拡張した。
我々は、このモデルの性能を評価し、jina-clip-v2が最先端のCLIPモデルよりも顕著に改善されていることを示す。
論文 参考訳(メタデータ) (2024-12-11T22:28:12Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - Large-scale Bilingual Language-Image Contrastive Learning [17.19890778916312]
我々は11億枚の画像テキストペア(韓国語7800万、英語476万)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。
我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。
実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文 参考訳(メタデータ) (2022-03-28T03:02:03Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。