論文の概要: AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages
- arxiv url: http://arxiv.org/abs/2510.23896v1
- Date: Mon, 27 Oct 2025 22:06:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.599833
- Title: AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages
- Title(参考訳): AfriMTEBとAfriE5:アフリカ言語のためのテキスト埋め込みモデルのベンチマークと適応
- Authors: Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani,
- Abstract要約: AfriMTEBは、59の言語、14のタスク、38のデータセットをカバーし、6つの新たに追加されたデータセットを含む、MTEBの地域拡張である。
5言語未満の多くのMTEBデータセットとは異なり、新しい追加は14から56のアフリカの言語にまたがっており、ヘイトスピーチ検出、意図検出、感情分類といった全く新しいタスクが導入されている。
AfriE5は, 言語間のコントラスト蒸留を通じて, アフリカ語への命令調整mE5モデルの適応である。
- 参考スコア(独自算出の注目度): 9.808851353304275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text embeddings are an essential building component of several NLP tasks such as retrieval-augmented generation which is crucial for preventing hallucinations in LLMs. Despite the recent release of massively multilingual MTEB (MMTEB), African languages remain underrepresented, with existing tasks often repurposed from translation benchmarks such as FLORES clustering or SIB-200. In this paper, we introduce AfriMTEB -- a regional expansion of MMTEB covering 59 languages, 14 tasks, and 38 datasets, including six newly added datasets. Unlike many MMTEB datasets that include fewer than five languages, the new additions span 14 to 56 African languages and introduce entirely new tasks, such as hate speech detection, intent detection, and emotion classification, which were not previously covered. Complementing this, we present AfriE5, an adaptation of the instruction-tuned mE5 model to African languages through cross-lingual contrastive distillation. Our evaluation shows that AfriE5 achieves state-of-the-art performance, outperforming strong baselines such as Gemini-Embeddings and mE5.
- Abstract(参考訳): テキスト埋め込みは、LLMにおける幻覚の予防に不可欠である検索強化生成など、いくつかのNLPタスクの重要な構成要素である。
最近、多言語MTEB (MMTEB) がリリースされたが、アフリカの言語は貧弱なままであり、既存のタスクはFLORESクラスタリングやSIB-200のような翻訳ベンチマークからしばしば再利用されている。
本稿では,59言語,14タスク,38データセットを対象としたMMTEBの地域拡張であるAfriMTEBを紹介する。
5言語未満のMMTEBデータセットとは異なり、新しい追加は14から56のアフリカの言語にまたがっており、ヘイトスピーチ検出、意図検出、感情分類など全く新しいタスクが導入されている。
AfriE5は, 言語間のコントラスト蒸留を通じて, アフリカ語への命令調整mE5モデルの適応である。
AfriE5は,Gemini-EmbeddingsやmE5などの強力なベースラインよりも優れ,最先端のパフォーマンスを実現している。
関連論文リスト
- MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - INJONGO: A Multicultural Intent Detection and Slot-filling Dataset for 16 African Languages [15.983678567785004]
スロットフィリングとインテント検出は、会話型AIにおいて確立されたタスクである。
Injongoは16のアフリカ言語のための、多文化でオープンソースのベンチマークデータセットです。
アフリカ文化の発話を西洋中心の発話に活用して言語間移動を改善する利点を示す。
論文 参考訳(メタデータ) (2025-02-13T23:17:10Z) - AFRIDOC-MT: Document-level MT Corpus for African Languages [35.904230899044116]
AFRIDOC-MTは、英語と5つのアフリカ語をカバーする文書レベルのマルチ並列翻訳データセットである。
データセットは334の健康と271の情報技術に関するニュースドキュメントで構成されており、全て英語からこれらの言語に翻訳されている。
論文 参考訳(メタデータ) (2025-01-10T22:49:29Z) - Bridging the Gap: Enhancing LLM Performance for Low-Resource African Languages with New Benchmarks, Fine-Tuning, and Cultural Adjustments [0.9214083577876088]
本稿では,8つの低リソースアフリカ言語において,約100万の人文翻訳語を新たにベンチマークデータとして生成する。
我々のベンチマークはウィノグランデの翻訳とMMLUの3つのセクション(大学医学、臨床知識、ウイルス学)である。
翻訳されたベンチマークを用いて、英語とアフリカ語におけるSOTA(State-of-the-art LLM)のパフォーマンスギャップについて報告する。
論文 参考訳(メタデータ) (2024-12-16T23:50:21Z) - EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。
本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-09-26T14:40:45Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - MEGAVERSE: Benchmarking Large Language Models Across Languages, Modalities, Models and Tasks [12.665447518524187]
本研究の目的は、同一の多言語データセットで比較することで、SoTA LLMの非英語能力の徹底的な評価を行うことである。
私たちのベンチマークは、低リソースのアフリカ言語を含む83の言語をカバーする22のデータセットで構成されています。
また、データ汚染に関する研究を行い、複数のモデルが多言語評価ベンチマークで汚染される可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-13T16:45:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。