論文の概要: Milco: Learned Sparse Retrieval Across Languages via a Multilingual Connector
- arxiv url: http://arxiv.org/abs/2510.00671v1
- Date: Wed, 01 Oct 2025 08:58:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.477004
- Title: Milco: Learned Sparse Retrieval Across Languages via a Multilingual Connector
- Title(参考訳): Milco: 多言語接続子による言語横断のスパース検索
- Authors: Thong Nguyen, Yibin Lei, Jia-Huei Ju, Eugene Yang, Andrew Yates,
- Abstract要約: Learned Sparse Retrieval (LSR) は、2エンコーダの効率と語彙マッチングの透明性を組み合わせている。
MILCOは、異なる言語からのクエリやドキュメントを共通の英語語彙空間にマッピングするLSRアーキテクチャである。
- 参考スコア(独自算出の注目度): 25.65114670027799
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned Sparse Retrieval (LSR) combines the efficiency of bi-encoders with the transparency of lexical matching, but existing approaches struggle to scale beyond English. We introduce MILCO, an LSR architecture that maps queries and documents from different languages into a shared English lexical space via a multilingual connector. MILCO is trained with a specialized two-stage regime that combines Sparse Alignment Pretraining with contrastive training to provide representation transparency and effectiveness while mitigating semantic collapse. Motivated by the observation that uncommon entities are often lost when projected into English, we propose a new LexEcho head, which enhances robustness by augmenting the English lexical representation with a source-language view obtained through a special [ECHO] token. MILCO achieves state-of-the-art multilingual and cross-lingual LSR performance, outperforming leading dense, sparse, and multi-vector baselines such as BGE-M3 and Qwen3-Embed on standard multilingual benchmarks, while supporting dynamic efficiency through post-hoc pruning. Notably, when using mass-based pruning to reduce document representations to only 30 active dimensions on average, MILCO 560M outperforms the similarly-sized Qwen3-Embed 0.6B with 1024 dimensions.
- Abstract(参考訳): Learned Sparse Retrieval (LSR)は、二エンコーダの効率と語彙マッチングの透明性を組み合わせたものだが、既存のアプローチは英語以外の拡張に苦慮している。
MILCOは、異なる言語からのクエリやドキュメントを多言語コネクタを介して共有英語語彙空間にマッピングするLSRアーキテクチャである。
MILCOは、スパースアライメント・プレトレーニングとコントラストトレーニングを組み合わせて、意味的崩壊を緩和しながら、表現の透明性と有効性を提供する2段階の特別な制度で訓練されている。
特殊(ECHO)トークンを用いて英語の語彙表現を拡大することにより、ロバスト性を高めるLexEchoヘッドを提案する。
MILCOは最先端のマルチリンガルとクロスリンガルのLSR性能を実現し、BGE-M3やQwen3-Embedのような高密度、スパース、マルチベクターのベースラインを標準のマルチリンガルベンチマークで上回り、ポストホットプルーニングによって動的効率をサポートする。
特に、文書表現を平均で30個のアクティブ次元に減らすためにマスベースプルーニングを使用する場合、MILCO 560Mは1024次元のQwen3-Embed 0.6Bと同等の大きさのQwen3-Embed 0.6Bより優れている。
関連論文リスト
- uCLIP: Parameter-Efficient Multilingual Extension of Vision-Language Models with Unpaired Data [3.364569898365253]
我々は多言語視覚言語アライメントのための軽量でデータ効率の良いフレームワークを提案する。
本手法では,画像テキストペアやテキストペアは必要とせず,事前訓練された画像エンコーダと多言語テキストエンコーダの両方を凍結する。
この最小限のトレーニング設定は、監督が限られている言語でも堅牢な多言語アライメントを可能にする。
論文 参考訳(メタデータ) (2025-11-17T06:34:49Z) - Enhancing LLM Language Adaption through Cross-lingual In-Context Pre-training [57.62126373849383]
CrossIC-PT(クロスランガル・イン・コンテクスト・プレトレーニング)は、クロスランガル・トランスファーを強化するシンプルでスケーラブルなアプローチである。
セマンティック関連のバイリンガルウィキペディア文書を1つのコンテキストウィンドウにインターリーブすることで、CrossIC-PTサンプルを構築する。
実験の結果、CrossIC-PTは6つの対象言語にわたる3つのモデルの多言語性能を改善することが示された。
論文 参考訳(メタデータ) (2025-04-29T07:24:25Z) - COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing [1.2242530642524063]
COMI-lingUAは、ヒンディー語と英語のコード混成データセットとしては最大である。
5つのコアNLPタスクにわたる125K以上の高品質なインスタンスで構成されている。
各インスタンスには3つのバイリンガルアノテーションがアノテートされ、376K以上の専門家アノテーションが生成される。
論文 参考訳(メタデータ) (2025-03-27T16:36:39Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Learning Multilingual Sentence Representations with Cross-lingual
Consistency Regularization [46.09132547431629]
220以上の言語をサポートする一対一の多言語文表現モデル MuSR を紹介する。
我々は、多言語NMTフレームワークを採用することで、補助的なTransformerデコーダと組み合わせた多言語トランスフォーマーエンコーダを訓練する。
多言語類似検索とbitextマイニングタスクの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-06-12T07:39:06Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Learning Disentangled Semantic Representations for Zero-Shot
Cross-Lingual Transfer in Multilingual Machine Reading Comprehension [40.38719019711233]
マルチリンガル事前学習モデルは、機械読取理解(MRC)において、リッチリソース言語から低リソース言語への移行知識をゼロショットで得ることができる
本稿では,シメセマンティック・ディスタングルメント・モデル(SSDM)を用いた,多言語事前学習モデルで学習した表現の構文から意味論を解離させる新しい多言語MRCフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-03T05:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。