論文の概要: M3DR: Towards Universal Multilingual Multimodal Document Retrieval
- arxiv url: http://arxiv.org/abs/2512.03514v1
- Date: Wed, 03 Dec 2025 07:17:59 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:11:24.919589
- Title: M3DR: Towards Universal Multilingual Multimodal Document Retrieval
- Title(参考訳): M3DR:Universal Multilingual Multimodal Document Retrievalを目指して
- Authors: Adithya S Kolavi, Vyoman Jain,
- Abstract要約: M3DR(Multilingual Multimodal Document Retrieval)は,言語間のギャップを埋めるためのフレームワークである。
異なる視覚言語アーキテクチャとモデルサイズにまたがって一般化し、堅牢な言語間およびモーダル間のアライメントを可能にします。
我々のモデルであるNetraEmbedとColNetraEmbedは、言語間検索における150%の相対的な改善で最先端のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Multimodal document retrieval systems have shown strong progress in aligning visual and textual content for semantic search. However, most existing approaches remain heavily English-centric, limiting their effectiveness in multilingual contexts. In this work, we present M3DR (Multilingual Multimodal Document Retrieval), a framework designed to bridge this gap across languages, enabling applicability across diverse linguistic and cultural contexts. M3DR leverages synthetic multilingual document data and generalizes across different vision-language architectures and model sizes, enabling robust cross-lingual and cross-modal alignment. Using contrastive training, our models learn unified representations for text and document images that transfer effectively across languages. We validate this capability on 22 typologically diverse languages, demonstrating consistent performance and adaptability across linguistic and script variations. We further introduce a comprehensive benchmark that captures real-world multilingual scenarios, evaluating models under monolingual, multilingual, and mixed-language settings. M3DR generalizes across both single dense vector and ColBERT-style token-level multi-vector retrieval paradigms. Our models, NetraEmbed and ColNetraEmbed achieve state-of-the-art performance with ~150% relative improvements on cross-lingual retrieval.
- Abstract(参考訳): マルチモーダル文書検索システムは,セマンティック検索のための視覚的内容とテキスト的内容の整合性に大きく進歩している。
しかし、既存のほとんどのアプローチは英語中心であり、多言語文脈での有効性を制限している。
本稿では,言語間のギャップを埋めるフレームワークであるM3DR(Multilingual Multimodal Document Retrieval)について述べる。
M3DRは、合成多言語文書データを活用し、異なる視覚言語アーキテクチャとモデルサイズにまたがって一般化し、堅牢なクロスランガルおよびクロスモーダルアライメントを実現する。
対照的なトレーニングを用いて、我々のモデルは、言語間で効果的に転送されるテキストおよび文書画像の統一表現を学習する。
この能力を22の言語で検証し,言語やスクリプトのバリエーションに対して一貫した性能と適応性を示す。
さらに、実世界のマルチリンガルシナリオをキャプチャし、モノリンガル、マルチリンガル、混合言語設定下のモデルを評価する包括的なベンチマークを導入する。
M3DRは、単一の高密度ベクトルとColBERTスタイルのトークンレベルのマルチベクトル検索パラダイムの両方を一般化する。
我々のモデルであるNetraEmbedとColNetraEmbedは、言語間検索の相対的改善を約150%で実現しています。
関連論文リスト
- uCLIP: Parameter-Efficient Multilingual Extension of Vision-Language Models with Unpaired Data [3.364569898365253]
我々は多言語視覚言語アライメントのための軽量でデータ効率の良いフレームワークを提案する。
本手法では,画像テキストペアやテキストペアは必要とせず,事前訓練された画像エンコーダと多言語テキストエンコーダの両方を凍結する。
この最小限のトレーニング設定は、監督が限られている言語でも堅牢な多言語アライメントを可能にする。
論文 参考訳(メタデータ) (2025-11-17T06:34:49Z) - m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt [39.2728779674405]
マルチモーダル多言語ニューラルマシン翻訳(m3P)を導くためのマルチモーダルプロンプトを利用するフレームワークを提案する。
本手法は, 中心言語としてのイメージを考慮し, 異なる言語の表現距離を最小化することを目的とする。
実験の結果,m3Pは従来のテキストのみのベースラインや多言語マルチモーダルメソッドよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-26T10:04:24Z) - LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine
Translation [94.33019040320507]
マルチモーダル機械翻訳(MMT)は、視覚的特徴を持つテキストのみの翻訳を強化することに焦点を当てている。
最近の進歩は、各言語ペアごとに別々のモデルをトレーニングすることに苦慮している。
7つの言語をカバーする2つのMultilingual MMTベンチマークデータセットを確立することで,Multilingual MMTタスクを提案する。
論文 参考訳(メタデータ) (2022-10-19T12:21:39Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - M3P: Learning Universal Representations via Multitask Multilingual
Multimodal Pre-training [119.16007395162431]
M3Pは、多言語事前訓練と多言語事前訓練を組み合わせた多言語マルチモーダル事前訓練モデルである。
我々は,M3Pが英語に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-04T03:54:29Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。