Fugu-MT 論文翻訳(概要): The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding

論文の概要: The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding

arxiv url: http://arxiv.org/abs/2406.02396v1
Date: Tue, 4 Jun 2024 15:11:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 15:40:59.282498
Title: The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding
Title（参考訳）: スカンジナビア語埋め込みベンチマーク:多言語および単言語テキスト埋め込みの包括的評価
Authors: Kenneth Enevoldsen, Márton Kardos, Niklas Muennighoff, Kristoffer Laigaard Nielbo,
Abstract要約: Scandinavian Embedding Benchmark (SEB)は、スカンジナビア語のテキスト埋め込み評価を可能にするフレームワークである。 SEBに基づいて26以上のモデルを評価し、パブリックソリューションと商用ソリューションの大幅なパフォーマンス格差を明らかにします。我々はSEBをオープンソースにしてMTEBと統合し、スカンジナビア語のテキスト埋め込み評価のギャップを埋める。
参考スコア（独自算出の注目度）: 8.097049661773465
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The evaluation of English text embeddings has transitioned from evaluating a handful of datasets to broad coverage across many tasks through benchmarks such as MTEB. However, this is not the case for multilingual text embeddings due to a lack of available benchmarks. To address this problem, we introduce the Scandinavian Embedding Benchmark (SEB). SEB is a comprehensive framework that enables text embedding evaluation for Scandinavian languages across 24 tasks, 10 subtasks, and 4 task categories. Building on SEB, we evaluate more than 26 models, uncovering significant performance disparities between public and commercial solutions not previously captured by MTEB. We open-source SEB and integrate it with MTEB, thus bridging the text embedding evaluation gap for Scandinavian languages.
Abstract（参考訳）: 英語のテキスト埋め込みの評価は、少数のデータセットの評価から、MTEBなどのベンチマークを通じて、多くのタスクにまたがる広範なカバレッジへと移行してきた。しかし、利用可能なベンチマークが不足しているため、多言語テキストの埋め込みではそうではない。この問題に対処するため,Scandinavian Embedding Benchmark (SEB)を導入する。 SEBは、スカンジナビア語のテキスト埋め込み評価を24のタスク、10のサブタスク、4のタスクカテゴリで可能にする包括的なフレームワークである。 SEBに基づいて26モデル以上のモデルを評価し,これまでMTEBが取得していなかった公開ソリューションと商用ソリューションの大幅な性能格差を明らかにした。我々はSEBをオープンソースにしてMTEBと統合し、スカンジナビア語のテキスト埋め込み評価のギャップを埋める。

関連論文リスト

Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification [66.69370876902222]
本研究は,9言語にわたるテキストデトックス化システムの評価に関する総合的多言語研究である。我々は,現代のニューラルベース評価モデルの有効性を,プロンプトベースLCM-as-a-judgeアプローチと併用して評価する。本研究は,より信頼性の高い多言語TST評価パイプラインを設計するための実用的なレシピを提供する。
論文参考訳（メタデータ） (2025-07-21T12:38:07Z)
MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。 MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文参考訳（メタデータ） (2025-02-19T10:13:43Z)
FaMTEB: Massive Text Embedding Benchmark in Persian Language [9.204800002382042]
本稿では,Massive Text Embedding Benchmark (MTEB)上に構築されたペルシア語(Farsi)テキスト埋め込みの総合ベンチマークを提案する。私たちのベンチマークには、7つの異なるタスクにまたがる63のデータセットが含まれています。ペルシャ語および多言語埋め込みモデルの性能を様々なタスクで評価する。
論文参考訳（メタデータ） (2025-02-17T09:05:21Z)
A comparison of translation performance between DeepL and Supertext [3.858812369171884]
本研究では、DeepLとSupertextという2つの商用機械翻訳システムを比較した。我々は4つの言語方向の翻訳品質を、文書レベルのコンテキストでセグメントを評価するプロの翻訳者を用いて評価する。セグメントレベルの評価では、ほとんどの場合、システム間での強い嗜好は示されていないが、文書レベルの分析では、4つの言語方向のうち3つにスーパーテキストの嗜好が示される。
論文参考訳（メタデータ） (2025-02-04T18:53:42Z)
OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning [72.57452266982642]
テキスト認識のための大規模バイリンガルテキスト中心ベンチマークであるOCRBench v2を紹介する。その結果,22 LMM中20 LMMは50点未満(合計100点)で,5種類の制限があることがわかった。
論文参考訳（メタデータ） (2024-12-31T07:32:35Z)
BERT or FastText? A Comparative Analysis of Contextual as well as Non-Contextual Embeddings [0.4194295877935868]
埋め込みの選択は、NLPタスクのパフォーマンス向上に重要な役割を果たす。本研究では,Marathi言語固有のNLP分類タスクに,コンテキストBERTベース,非コンテキストBERTベース,FastTextベースの様々な埋め込み技術が与える影響について検討する。
論文参考訳（メタデータ） (2024-11-26T18:25:57Z)
ROAST: Review-level Opinion Aspect Sentiment Target Joint Detection for ABSA [50.90538760832107]
本研究は新たな課題であるROAST(Review-Level Opinion Aspect Sentiment Target)を提示する。 ROASTは、文章レベルのABSAとテキストレベルのABSAのギャップを埋めようとしている。利用可能なデータセットを拡張してROASTを有効にし、以前の研究で指摘された欠点に対処します。
論文参考訳（メタデータ） (2024-05-30T17:29:15Z)
PL-MTEB: Polish Massive Text Embedding Benchmark [0.0]
Polish Massive Text Embedding Benchmark (PL-MTEB) はポーランド語におけるテキスト埋め込みのベンチマークである。 PL-MTEBは5つのタスクタイプから28種類のNLPタスクで構成されている。
論文参考訳（メタデータ） (2024-05-16T14:33:39Z)
SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。 SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文参考訳（メタデータ） (2023-05-22T16:25:07Z)
Discourse Centric Evaluation of Machine Translation with a Densely Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文参考訳（メタデータ） (2023-05-18T17:36:41Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Are the Best Multilingual Document Embeddings simply Based on Sentence Embeddings? [18.968571816913208]
本稿では,LASER,LaBSE,Sentence BERTを事前学習した多言語モデルに基づく文から文書レベルの表現を生成する手法を体系的に比較する。文の埋め込みの巧妙な組み合わせは、通常、全文書を単一の単位としてエンコードするよりも優れていることを示す。
論文参考訳（メタデータ） (2023-04-28T12:11:21Z)
MTEB: Massive Text Embedding Benchmark [6.023518635799927]
セマンティックテキストの類似性に対する最先端の埋め込みがクラスタリングや再ランク付けといった他のタスクにも同じようにうまく適用できるかどうかは不明だ。 Massive Text Embedding Benchmark (MTEB)は、58のデータセットと112の言語をカバーする8つの埋め込みタスクにまたがる。
論文参考訳（メタデータ） (2022-10-13T19:42:08Z)
FRMT: A Benchmark for Few-Shot Region-Aware Machine Translation [64.9546787488337]
本稿では、Few-shot Region-aware Machine Translationのための新しいデータセットと評価ベンチマークFRMTを提案する。このデータセットは、英語からポルトガル語と中国語の2つの地域変種へのプロの翻訳で構成されている。
論文参考訳（メタデータ） (2022-10-01T05:02:04Z)
XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文参考訳（メタデータ） (2020-03-24T19:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。