論文の概要: BEIR-NL: Zero-shot Information Retrieval Benchmark for the Dutch Language
- arxiv url: http://arxiv.org/abs/2412.08329v1
- Date: Wed, 11 Dec 2024 12:15:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:54.171572
- Title: BEIR-NL: Zero-shot Information Retrieval Benchmark for the Dutch Language
- Title(参考訳): BEIR-NL: オランダ語のゼロショット情報検索ベンチマーク
- Authors: Nikolay Banar, Ehsan Lotfi, Walter Daelemans,
- Abstract要約: BEIRデータセットをオランダ語に自動翻訳することでBEIR-NLを導入する。
我々は,語彙的BM25法と同様に,多言語密接なランク付けと再ランク付けモデルについて幅広い評価を行った。
- 参考スコア(独自算出の注目度): 3.3990813930813997
- License:
- Abstract: Zero-shot evaluation of information retrieval (IR) models is often performed using BEIR; a large and heterogeneous benchmark composed of multiple datasets, covering different retrieval tasks across various domains. Although BEIR has become a standard benchmark for the zero-shot setup, its exclusively English content reduces its utility for underrepresented languages in IR, including Dutch. To address this limitation and encourage the development of Dutch IR models, we introduce BEIR-NL by automatically translating the publicly accessible BEIR datasets into Dutch. Using BEIR-NL, we evaluated a wide range of multilingual dense ranking and reranking models, as well as the lexical BM25 method. Our experiments show that BM25 remains a competitive baseline, and is only outperformed by the larger dense models trained for retrieval. When combined with reranking models, BM25 achieves performance on par with the best dense ranking models. In addition, we explored the impact of translation on the data by back-translating a selection of datasets to English, and observed a performance drop for both dense and lexical methods, indicating the limitations of translation for creating benchmarks. BEIR-NL is publicly available on the Hugging Face hub.
- Abstract(参考訳): 情報検索(IR)モデルのゼロショット評価は、複数のデータセットからなる大規模で異質なベンチマークであるBEIRを用いて行われることが多い。
BEIRはゼロショット設定の標準ベンチマークとなっているが、英語のみのコンテンツは、オランダ語を含むIRで表現されていない言語での使用を減らしている。
この制限に対処し、オランダのIRモデルの開発を促進するため、公開されたBEIRデータセットをオランダ語に自動翻訳することでBEIR-NLを導入する。
BEIR-NLを用いて,多言語密接なランク付けと再ランク付けモデル,および語彙的BM25法について検討した。
実験の結果、BM25は依然として競争力のあるベースラインであり、検索のために訓練された大型の高密度モデルに勝っていることがわかった。
リグレードモデルと組み合わせると、BM25は最も高密度なランキングモデルと同等のパフォーマンスを達成する。
さらに、データセットの選択を英語にバック翻訳することで、データに翻訳が与える影響について検討し、密度と語彙の両方の手法のパフォーマンス低下を観察し、ベンチマークを作成するための翻訳の限界を示した。
BEIR-NLはHugging Faceハブで公開されている。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - BEIR-PL: Zero Shot Information Retrieval Benchmark for the Polish Language [4.720913027054481]
この研究はmMARCOとMr.TyDiのデータセットにインスパイアされ、アクセス可能なすべてのオープンIRデータセットをポーランド語に翻訳した。
13のデータセットからなる新しいベンチマークであるBEIR-PLベンチマークを導入しました。
新たに導入されたBEIR-PLベンチマークにおいて,多数のIRモデルの評価と比較を行った。
論文 参考訳(メタデータ) (2023-05-31T13:29:07Z) - DUMB: A Benchmark for Smart Evaluation of Dutch Models [23.811515104842826]
オランダのモデルベンチマークであるDUMBを紹介します。このベンチマークには、低、中、高リソースタスクのためのさまざまなデータセットが含まれています。
RER(Relative Error Reduction)は、言語モデルのDUMB性能を強力なベースラインと比較する。
最高性能はDeBERTaV3(大型)、XLM-R(大型)、mDeBERTaV3(ベース)である。
論文 参考訳(メタデータ) (2023-05-22T13:27:37Z) - Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially
Code-Switched Data [26.38449396649045]
問合せや文書が言語によって異なる場合,ゼロショットローダの有効性は低下する。
そこで我々は,人工的なコード切替データに基づいてランキングモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2023-05-09T09:32:19Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - Mr. TyDi: A Multi-lingual Benchmark for Dense Retrieval [51.004601358498135]
Mr. TyDiは、11の類型的多様言語における単言語検索のためのベンチマークデータセットである。
このリソースの目的は、非英語言語における高密度検索技術の研究を促進することである。
論文 参考訳(メタデータ) (2021-08-19T16:53:43Z) - BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information
Retrieval Models [41.45240621979654]
情報検索のための異種ベンチマークであるBEIRを紹介する。
ゼロショット評価設定における9つの最先端の検索モデルの有効性を検討する。
Dense-Retrievalモデルは計算効率が良いが、他のアプローチでは性能が劣ることが多い。
論文 参考訳(メタデータ) (2021-04-17T23:29:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。