論文の概要: Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval
- arxiv url: http://arxiv.org/abs/2505.19356v2
- Date: Tue, 10 Jun 2025 13:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.074726
- Title: Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval
- Title(参考訳): アンハリックパッセージ検索のための最適テキスト埋め込みモデルとベンチマーク
- Authors: Kidist Amde Mekonnen, Yosef Worku Alemneh, Maarten de Rijke,
- Abstract要約: トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural retrieval methods using transformer-based pre-trained language models have advanced multilingual and cross-lingual retrieval. However, their effectiveness for low-resource, morphologically rich languages such as Amharic remains underexplored due to data scarcity and suboptimal tokenization. We address this gap by introducing Amharic-specific dense retrieval models based on pre-trained Amharic BERT and RoBERTa backbones. Our proposed RoBERTa-Base-Amharic-Embed model (110M parameters) achieves a 17.6% relative improvement in MRR@10 and a 9.86% gain in Recall@10 over the strongest multilingual baseline, Arctic Embed 2.0 (568M parameters). More compact variants, such as RoBERTa-Medium-Amharic-Embed (42M), remain competitive while being over 13x smaller. Additionally, we train a ColBERT-based late interaction retrieval model that achieves the highest MRR@10 score (0.843) among all evaluated models. We benchmark our proposed models against both sparse and dense retrieval baselines to systematically assess retrieval effectiveness in Amharic. Our analysis highlights key challenges in low-resource settings and underscores the importance of language-specific adaptation. To foster future research in low-resource IR, we publicly release our dataset, codebase, and trained models at https://github.com/kidist-amde/amharic-ir-benchmarks.
- Abstract(参考訳): トランスフォーマーに基づく事前学習型言語モデルを用いたニューラル検索手法は,多言語・多言語間検索が進歩している。
しかし、アムハラ語のような低資源で形態学的に豊かな言語に対するそれらの効果は、データ不足と準最適トークン化のため、未発見のままである。
本稿では,Amharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを導入することで,このギャップに対処する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10が17.6%,Recall@10が9.86%向上した。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
さらに,全ての評価モデルの中で最も高いMRR@10スコア(0.843)を達成できるColBERTに基づく遅延インタラクション検索モデルを訓練する。
提案手法は,アムハラ語の検索効率を体系的に評価するために,スパースベースラインと高密度検索ベースラインの両方に対してベンチマークを行った。
分析では、低リソース設定における重要な課題を強調し、言語固有の適応の重要性を浮き彫りにしている。
低リソースIRにおける将来の研究を促進するため、私たちはデータセット、コードベース、トレーニングされたモデルをhttps://github.com/kidist-amde/amharic-ir-benchmarks.comで公開しています。
関連論文リスト
- Subasa -- Adapting Language Models for Low-resourced Offensive Language Detection in Sinhala [9.298909305675595]
そこで我々は,Masked Rationale Prediction を用いた中間的事前ネットワークのステップを組み込んだ「Subasa-XLM-R」の4つのモデルを紹介した。
我々は,Sinhala攻撃言語検出のためのSOLDベンチマークデータセットを用いて,我々のモデルを評価する。
論文 参考訳(メタデータ) (2025-04-02T23:46:49Z) - Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。
Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。
最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文 参考訳(メタデータ) (2025-03-24T09:39:41Z) - JaColBERTv2.5: Optimising Multi-Vector Retrievers to Create State-of-the-Art Japanese Retrievers with Constrained Resources [0.0]
本稿では,JaColBERTv2.5モデルを用いた新しいトレーニングレシピを提案する。
わずか1億1000万のパラメータと15時間以内にトレーニングされたJaColBERTv2.5は、既存のすべてのメソッドを著しく上回っている。
今後の研究を支援するため、最終モデル、中間チェックポイント、および公開されているすべてのデータを作成します。
論文 参考訳(メタデータ) (2024-07-30T11:42:19Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Learning Compact Metrics for MT [21.408684470261342]
最先端多言語モデルであるRemBERTを用いて,多言語性とモデルキャパシティのトレードオフについて検討する。
モデルのサイズが実際に言語間移動のボトルネックであることを示し、蒸留がこのボトルネックにどのように対処できるかを示す。
提案手法は,バニラ微調整よりも最大10.5%向上し,パラメータの3分の1しか使用せず,RemBERTの性能の92.6%に達する。
論文 参考訳(メタデータ) (2021-10-12T20:39:35Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Improving Candidate Generation for Low-resource Cross-lingual Entity
Linking [81.41804263432684]
XEL(クロスランガル・エンティティ・リンク)は、ソース言語テキストから抽出された参照をターゲット言語知識ベース(KB)で検索するタスクである。
本稿では,(1)エンティティ参照とKBエントリの切断を減らすこと,(2)低リソースシナリオへのモデルの堅牢性を改善すること,の3つの改良を提案する。
論文 参考訳(メタデータ) (2020-03-03T05:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。