論文の概要: What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models
- arxiv url: http://arxiv.org/abs/2511.19324v1
- Date: Mon, 24 Nov 2025 17:17:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.335785
- Title: What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models
- Title(参考訳): 言語間ランキングを駆動するものは何か? 多言語言語モデルを用いた検索手法
- Authors: Roksana Goworek, Olivia Macmillan-Scott, Eda B. Özyiğit,
- Abstract要約: リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントの相違により、言語間情報検索は困難である。
既存のパイプラインは、しばしば翻訳と単言語検索に依存し、計算オーバーヘッドとノイズ、パフォーマンスを追加する。
この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリー文書レベルのコントラスト学習、および3つのベンチマークデータセットにおけるクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
- 参考スコア(独自算出の注目度): 0.19116784879310025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual information retrieval (CLIR) enables access to multilingual knowledge but remains challenging due to disparities in resources, scripts, and weak cross-lingual semantic alignment in embedding models. Existing pipelines often rely on translation and monolingual retrieval heuristics, which add computational overhead and noise, degrading performance. This work systematically evaluates four intervention types, namely document translation, multilingual dense retrieval with pretrained encoders, contrastive learning at word, phrase, and query-document levels, and cross-encoder re-ranking, across three benchmark datasets. We find that dense retrieval models trained specifically for CLIR consistently outperform lexical matching methods and derive little benefit from document translation. Contrastive learning mitigates language biases and yields substantial improvements for encoders with weak initial alignment, and re-ranking can be effective, but depends on the quality of the cross-encoder training data. Although high-resource languages still dominate overall performance, gains over lexical and document-translated baselines are most pronounced for low-resource and cross-script pairs. These findings indicate that cross-lingual search systems should prioritise semantic multilingual embeddings and targeted learning-based alignment over translation-based pipelines, particularly for cross-script and under-resourced languages.
- Abstract(参考訳): 言語間情報検索(CLIR)は、多言語知識へのアクセスを可能にするが、リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントのため、依然として困難である。
既存のパイプラインは、しばしば翻訳と単言語検索のヒューリスティックに依存し、計算オーバーヘッドとノイズを加え、性能を低下させる。
この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリドキュメントレベルのコントラスト学習、および3つのベンチマークデータセット間でのクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
CLIRに特化して訓練された高密度検索モデルは、語彙マッチング法を一貫して上回り、文書翻訳の利点はほとんど得られない。
コントラスト学習は言語バイアスを軽減し、初期アライメントの弱いエンコーダに大幅な改善をもたらし、再ランク付けは効果的であるが、クロスエンコーダのトレーニングデータの品質に依存している。
ハイリソース言語は依然として全体的なパフォーマンスを担っているが、低リソースとクロススクリプトのペアでは、語彙や文書変換のベースラインよりも高くなることが最も顕著である。
これらの結果から,言語間検索システムは意味的な多言語埋め込みや,翻訳に基づくパイプライン上での学習に基づくアライメント,特にクロススクリプトおよびアンダーリソース言語に優先すべきであることが示唆された。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z) - Progressive Sentiment Analysis for Code-Switched Text Data [26.71396390928905]
私たちは、ラベル付きリソース豊富な言語データセットと、ラベルなしのコード変更データを持つコード変更感情分析に重点を置いています。
資源豊富な言語と低リソース言語を区別する枠組みを提案する。
論文 参考訳(メタデータ) (2022-10-25T23:13:53Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。