論文の概要: Retrofitting Small Multilingual Models for Retrieval: Matching 7B Performance with 300M Parameters
- arxiv url: http://arxiv.org/abs/2510.14274v1
- Date: Thu, 16 Oct 2025 03:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.710905
- Title: Retrofitting Small Multilingual Models for Retrieval: Matching 7B Performance with 300M Parameters
- Title(参考訳): 検索のための小型多言語モデルの再適合:300Mパラメータによる7B性能のマッチング
- Authors: Lifu Tu, Yingbo Zhou, Semih Yavuz,
- Abstract要約: 効果的な多言語埋め込みモデルの訓練は、言語やタスクの目的の多様性による固有の課題を提示する。
我々は,多言語埋め込みの有効性に影響を及ぼす重要な要因について検討し,トレーニングデータ尺度,ネガティブサンプリング戦略,データ多様性に着目した。
我々は,現在の強7Bモデルに匹敵する,あるいは超越する検索性能を実現する,コンパクトな(約300M)多言語モデルを開発した。
- 参考スコア(独自算出の注目度): 30.737678658069097
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Training effective multilingual embedding models presents unique challenges due to the diversity of languages and task objectives. Although small multilingual models (<1 B parameters) perform well on multilingual tasks generally, they consistently lag behind larger models (>1 B) in the most prevalent use case: retrieval. This raises a critical question: Can smaller models be retrofitted specifically for retrieval tasks to enhance their performance? In this work, we investigate key factors that influence the effectiveness of multilingual embeddings, focusing on training data scale, negative sampling strategies, and data diversity. We find that while increasing the scale of training data yields initial performance gains, these improvements quickly plateau - indicating diminishing returns. Incorporating hard negatives proves essential for consistently improving retrieval accuracy. Furthermore, our analysis reveals that task diversity in the training data contributes more significantly to performance than language diversity alone. As a result, we develop a compact (approximately 300M) multilingual model that achieves retrieval performance comparable to or even surpassing current strong 7B models.
- Abstract(参考訳): 効果的な多言語埋め込みモデルの訓練は、言語やタスクの目的の多様性による固有の課題を提示する。
小さな多言語モデル((<1 Bパラメータ)は、一般に多言語タスクでよく機能するが、最も一般的なユースケースである検索では、より大きなモデル(>1 B)よりずっと遅れている。
より小さなモデルは、検索タスクに特化してパフォーマンスを向上させることができるのか?
本研究では,多言語埋め込みの有効性に影響を与える重要な要因について検討し,学習データ尺度,ネガティブサンプリング戦略,データ多様性に着目した。
トレーニングデータの規模が大きくなると、初期パフォーマンスが向上する一方で、これらの改善は急速に高められ、リターンが低下することを示している。
ハードネガティブを組み込むことは、検索精度を一貫して向上させるのに不可欠である。
さらに,本分析の結果から,学習データにおけるタスクの多様性は,言語の多様性だけでなく,パフォーマンスに大きく寄与していることが明らかとなった。
その結果,従来の7Bモデルに匹敵する,あるいは超越する検索性能を達成できる,コンパクトな(約300M)多言語モデルを開発した。
関連論文リスト
- mR3: Multilingual Rubric-Agnostic Reward Reasoning Models [16.953894896444403]
我々は,72言語で訓練された,多言語・ルックスに依存しない報酬推論モデルであるmR3を紹介する。
本稿では、高品質の報酬モデルを構築するための効果的な戦略とデータソースを特定するための訓練のためのデータとカリキュラムの選択について包括的に研究する。
提案手法は,多言語報酬モデルベンチマークにおける最先端のパフォーマンスを達成し,より大規模なモデルを上回るものである。
論文 参考訳(メタデータ) (2025-10-01T17:36:59Z) - Boosting Data Utilization for Multilingual Dense Retrieval [47.16651389111977]
高品質な高負のサンプルと効果的なミニバッチデータを得ることにより,多言語高密度検索におけるデータ利用率を向上させる手法を提案する。
16言語を用いた多言語検索ベンチマークであるMIRACLの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2025-09-11T13:42:50Z) - The Impact of Model Scaling on Seen and Unseen Language Performance [2.012425476229879]
本研究では204言語にわたる多言語大言語モデルの性能とスケーリングの挙動について検討する。
その結果,ゼロショットシナリオと2ショットシナリオのスケーリング挙動に有意な差が認められた。
2ショット設定では、より大きなモデルは多言語テキスト分類において明確な線形改善を示す。
論文 参考訳(メタデータ) (2025-01-10T00:10:21Z) - A Recipe of Parallel Corpora Exploitation for Multilingual Large Language Models [64.79218405438871]
最近の研究は、多言語大言語モデルを強化するために並列コーパスを利用する可能性を強調している。
並列コーパスで強化された多言語大言語モデルの性能に及ぼす並列コーパスの品質と量,訓練目標,モデルサイズの影響について検討した。
論文 参考訳(メタデータ) (2024-06-29T13:12:39Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Improving the Cross-Lingual Generalisation in Visual Question Answering [40.86774711775718]
多言語視覚言語事前学習モデルは、非英語データに適用した場合、言語間一般化が不十分であることを示す。
本研究は、ゼロショット言語間視覚質問応答(VQA)タスクにおいて、これらのモデルの低性能について検討する。
我々は,(1)類似性に基づく損失によるクロスエントロピー損失を増大させる言語的事前目標を導入し,トレーニング中にモデルを導くこと,(2)言語的一般化を改善し,モデルの修正を伴わずに分散を低減するタスク固有のサブネットワークを学習すること,(3)合成コードを用いたトレーニング例を強化すること,の3つの戦略を用いて言語的事前移動を改善する。
論文 参考訳(メタデータ) (2022-09-07T08:07:43Z) - EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning [38.928786416891924]
我々は,クロスリンガルトークンレベル再構築(XTR)と文レベルのコントラスト学習を訓練目的として,効率的で効果的な多言語文埋め込み(EMS)を導入する。
関連する研究と比較すると,提案したモデルは,非常に少ない並列文とGPU計算資源を用いて効率的に訓練することができる。
我々は、62言語をサポートするモデルトレーニング用コードと、EMS事前訓練文埋め込みモデルをリリースする。
論文 参考訳(メタデータ) (2022-05-31T12:29:25Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。