論文の概要: FaMTEB: Massive Text Embedding Benchmark in Persian Language
- arxiv url: http://arxiv.org/abs/2502.11571v1
- Date: Mon, 17 Feb 2025 09:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:28.424296
- Title: FaMTEB: Massive Text Embedding Benchmark in Persian Language
- Title(参考訳): FaMTEB:ペルシア語のベンチマークを組み込んだ大量のテキスト
- Authors: Erfan Zinvandi, Morteza Alikhani, Mehran Sarmadi, Zahra Pourbahman, Sepehr Arvin, Reza Kazemi, Arash Amini,
- Abstract要約: 本稿では,Massive Text Embedding Benchmark (MTEB)上に構築されたペルシア語(Farsi)テキスト埋め込みの総合ベンチマークを提案する。
私たちのベンチマークには、7つの異なるタスクにまたがる63のデータセットが含まれています。
ペルシャ語および多言語埋め込みモデルの性能を様々なタスクで評価する。
- 参考スコア(独自算出の注目度): 9.204800002382042
- License:
- Abstract: In this paper, we introduce a comprehensive benchmark for Persian (Farsi) text embeddings, built upon the Massive Text Embedding Benchmark (MTEB). Our benchmark includes 63 datasets spanning seven different tasks: classification, clustering, pair classification, reranking, retrieval, summary retrieval, and semantic textual similarity. The datasets are formed as a combination of existing, translated, and newly generated data, offering a diverse evaluation framework for Persian language models. Given the increasing use of text embedding models in chatbots, evaluation datasets are becoming inseparable ingredients in chatbot challenges and Retrieval-Augmented Generation systems. As a contribution, we include chatbot evaluation datasets in the MTEB benchmark for the first time. In addition, in this paper, we introduce the new task of summary retrieval which is not part of the tasks included in standard MTEB. Another contribution of this paper is the introduction of a substantial number of new Persian language NLP datasets suitable for training and evaluation, some of which have no previous counterparts in Persian. We evaluate the performance of several Persian and multilingual embedding models in a range of tasks. This work introduces an open-source benchmark with datasets, code and a public leaderboard.
- Abstract(参考訳): 本稿では,Massive Text Embedding Benchmark (MTEB) 上に構築されたペルシア語(Farsi)テキストの埋め込みに関する総合ベンチマークを紹介する。
私たちのベンチマークには、分類、クラスタリング、ペア分類、再分類、検索、要約検索、意味的テキスト類似性という7つのタスクにまたがる63のデータセットが含まれています。
データセットは、既存の、翻訳された、新しく生成されたデータの組み合わせとして形成され、ペルシア語のモデルに対するさまざまな評価フレームワークを提供する。
チャットボットにおけるテキスト埋め込みモデルの利用が増加する中、評価データセットはチャットボットの課題や検索・拡張生成システムにおいて分離不可能な要素になりつつある。
貢献として、初めてMTEBベンチマークにチャットボット評価データセットを含める。
また,本論文では,標準MTEBに含まれるタスクの一部ではない要約検索のタスクについて紹介する。
この論文のもう1つの貢献は、トレーニングと評価に適した、ペルシャ語の新しいNLPデータセットのかなりの数の導入である。
ペルシャ語および多言語埋め込みモデルの性能を様々なタスクで評価する。
この作業では、データセット、コード、公開リーダボードを備えたオープンソースのベンチマークが導入されている。
関連論文リスト
- MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text
Retrieval Methods [0.552480439325792]
ポーランド語情報検索ベンチマーク(PIRB, Polish Information Retrieval Benchmark)は、ポーランド語のための41のテキスト情報検索タスクを含む総合的な評価フレームワークである。
このベンチマークには、既存のデータセットに加えて、医学、法律、ビジネス、物理学、言語学など、さまざまなトピックをカバーする、10の新しい未発表データセットが含まれている。
我々は,20以上の密度・疎度検索モデルの評価を行い,そのベースラインモデルについて検討した。
論文 参考訳(メタデータ) (2024-02-20T19:53:36Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Text classification dataset and analysis for Uzbek language [0.0]
まず、ウズベク語テキスト分類のための新しいデータセットを10の異なるニュースや報道サイトから収集した。
また、従来のbag-of-wordsモデルからディープラーニングアーキテクチャまで、さまざまなモデルの包括的評価を行う。
実験により、リカレントニューラルネットワーク(RNN)と畳み込みニューラルネットワーク(CNN)に基づくモデルがルールベースモデルより優れていることが示された。
論文 参考訳(メタデータ) (2023-02-28T11:21:24Z) - FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。
このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文 参考訳(メタデータ) (2022-10-01T05:02:04Z) - SMTCE: A Social Media Text Classification Evaluation Benchmark and
BERTology Models for Vietnamese [3.0938904602244355]
本稿では,様々なSMTCタスクを対象としたデータセットとモデルの収集として,ソーシャルメディアテキスト分類評価(SMTCE)ベンチマークを紹介する。
我々は,多言語BERTベースモデルと単言語BERTベースモデルの有効性をベンチマークで実装し,解析する。
このベンチマークは、多言語および単言語BERTベースのモデルを客観的に評価し、ベトナム語のBERTologyに関する将来の研究に役立つだろう。
論文 参考訳(メタデータ) (2022-09-21T16:33:46Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。