論文の概要: The Multilingual Curse at the Retrieval Layer: Evidence from Amharic
- arxiv url: http://arxiv.org/abs/2605.24556v1
- Date: Sat, 23 May 2026 12:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.242787
- Title: The Multilingual Curse at the Retrieval Layer: Evidence from Amharic
- Title(参考訳): 検索層における多言語曲線:アムハラ語からのエビデンス
- Authors: Yosef Worku Alemneh, Kidist Amde Mekonnen, Maarten de Rijke,
- Abstract要約: マルチリンガルベンチマークの強いゼロショットスコアは、現在のエンコーダが多くの言語で確実に転送される証拠としてしばしば考えられている。
この仮定は、表現が不十分で形態学的にリッチな言語に当てはまると我々は主張する。
我々は,ゼロショット多言語レトリバー,アンハリック細調整多言語レトリバー,単言語多言語レトリバーを比較した。
- 参考スコア(独自算出の注目度): 49.25758237235551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual retrieval increasingly underpins cross-lingual question answering and retrieval-augmented generation. Strong zero-shot scores on multilingual benchmarks are often taken as evidence that current encoders transfer reliably across many languages. We argue that this assumption breaks down for underrepresented, morphologically rich languages, and use Amharic as a diagnostic case. Under a shared passage retrieval protocol covering dense, late-interaction, learned sparse, and cross-encoder paradigms, we compare zero-shot multilingual retrievers, Amharic-fine-tuned multilingual retrievers, and monolingual Amharic retrievers. The strongest zero-shot multilingual retriever underperforms the strongest monolingual Amharic first-stage retriever by 23% relative MRR@10. Fine-tuning two recent multilingual embedding models on the same Amharic supervision yields 32-60% relative MRR@10 gains over zero-shot, but the best Amharic-fine-tuned multilingual model remains below the strongest monolingual Amharic retriever. These findings indicate that zero-shot multilingual retrieval is not a sufficient proxy for equitable information access in the LLM era: for underrepresented languages, retrieval must be evaluated and adapted in-language rather than inferred from aggregate multilingual benchmarks. To foster future research, we publicly release the dataset, codebase, and trained models at https://github.com/rasyosef/amharic-neural-ir.
- Abstract(参考訳): 多言語検索は、言語横断的な質問応答と検索強化生成をますます支えている。
マルチリンガルベンチマークの強いゼロショットスコアは、現在のエンコーダが多くの言語で確実に転送される証拠としてしばしば考えられている。
この仮定は、未表現で形態学的にリッチな言語を分解し、診断のケースとしてAmharicを用いていると論じる。
高密度,遅延相互作用,学習スパース,クロスエンコーダのパラダイムを網羅した共有通路検索プロトコルにおいて,ゼロショット多言語検索器,アムハラ語微調整多言語検索器,モノリンガル・アムハラ語検索機を比較した。
最強のゼロショット多言語レトリバーは、最強のモノリンガルAmharic第1ステージレトリバーを相対的なMRR@10で23%下回る。
同じアムハラ語指導における2つの最近のマルチリンガル埋め込みモデルは、ゼロショットよりも32-60%の相対的なMRR@10が得られるが、最も優れたアムハラ語微調整多言語モデルは、最強のモノリンガル・アムハラ語レトリバー以下である。
これらの結果から,ゼロショット多言語検索はLLM時代の等価情報アクセスのための十分なプロキシではないことが示唆された。
将来の研究を促進するため、データセット、コードベース、トレーニングされたモデルをhttps://github.com/rasyosef/amharic-neural-ir.comで公開しています。
関連論文リスト
- One Instruction Does Not Fit All: How Well Do Embeddings Align Personas and Instructions in Low-Resource Indian Languages? [1.071318785217926]
インドの12の言語と4つの評価課題にまたがるベンチマークを提示する。
E5-Large-Instructはモノリンガル検索で27.4%、クロスリンガル転送で20.7%のリコール@1を達成している。
分類において、LaBSEは75.3%のAUROCを獲得し、校正が強い。
論文 参考訳(メタデータ) (2026-01-15T09:10:14Z) - Investigating Language and Retrieval Bias in Multilingual Previously Fact-Checked Claim Detection [4.6738956348193]
大きな言語モデル(LLM)は言語間ファクトチェックに強力な機能を提供する。
LLMは、しばしば言語バイアスを示し、英語のような高リソース言語で不公平に優れた性能を発揮する。
我々は,情報検索システムが他者よりも特定の情報を好む傾向にある場合,検索バイアスという新しい概念を提示し,検証する。
論文 参考訳(メタデータ) (2025-09-29T17:50:32Z) - Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。
このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文 参考訳(メタデータ) (2024-08-20T04:30:26Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples [64.79218405438871]
XAMPLER: 言語横断学習の課題に対処するための手法であるクロス言語実例検索法を紹介する。
XAMPLERはまず、多言語小言語モデルであるGlot500に基づいてレトリバーを訓練する。
ターゲット言語の文脈内学習の例として、英語の例を直接検索することができる。
論文 参考訳(メタデータ) (2024-05-08T15:13:33Z) - Unsupervised Multilingual Dense Retrieval via Generative Pseudo Labeling [32.10366004426449]
本稿では,教師なしの高密度多言語レトリバーUMRについて紹介する。
本稿では,多言語高密度検索器の性能を反復的に向上する2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T07:49:06Z) - Towards Better Monolingual Japanese Retrievers with Multi-Vector Models [0.0]
日本語では、最も優れたディープラーニングに基づく検索手法は多言語密着型埋め込みに依存している。
マルチ言語よりも2桁少ないデータで訓練されたマルチベクトルレトリバーのファミリーであるJaColBERTを紹介する。
論文 参考訳(メタデータ) (2023-12-26T18:07:05Z) - Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。