論文の概要: MessIRve: A Large-Scale Spanish Information Retrieval Dataset
- arxiv url: http://arxiv.org/abs/2409.05994v1
- Date: Mon, 9 Sep 2024 18:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 20:02:25.030279
- Title: MessIRve: A Large-Scale Spanish Information Retrieval Dataset
- Title(参考訳): MessIRve: 大規模なスペイン情報検索データセット
- Authors: Francisco Valentini, Viviana Cotik, Damián Furman, Ivan Bercovich, Edgar Altszyler, Juan Manuel Pérez,
- Abstract要約: MessIRveは、GoogleのオートコンプリートAPIから約730万のクエリと、Wikipediaからソースされた関連するドキュメントを備えた、大規模なスペインのIRデータセットである。
我々のコントリビューションは、スペインのIR研究を推進し、スペイン語話者の情報アクセスを改善することを目的としている。
- 参考スコア(独自算出の注目度): 1.5503410315996757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information retrieval (IR) is the task of finding relevant documents in response to a user query. Although Spanish is the second most spoken native language, current IR benchmarks lack Spanish data, hindering the development of information access tools for Spanish speakers. We introduce MessIRve, a large-scale Spanish IR dataset with around 730 thousand queries from Google's autocomplete API and relevant documents sourced from Wikipedia. MessIRve's queries reflect diverse Spanish-speaking regions, unlike other datasets that are translated from English or do not consider dialectal variations. The large size of the dataset allows it to cover a wide variety of topics, unlike smaller datasets. We provide a comprehensive description of the dataset, comparisons with existing datasets, and baseline evaluations of prominent IR models. Our contributions aim to advance Spanish IR research and improve information access for Spanish speakers.
- Abstract(参考訳): 情報検索(英語: Information Search, IR)とは、ユーザの問い合わせに応じて関連文書を検索するタスクである。
スペイン語は2番目に話されているネイティブ言語であるが、現在のIRベンチマークにはスペイン語のデータがないため、スペイン語話者のための情報アクセスツールの開発が妨げられている。
MessIRveは、GoogleのオートコンプリートAPIから約730万のクエリと、Wikipediaからソースされた関連ドキュメントを備えた、大規模なスペインのIRデータセットである。
MessIRveのクエリは、英語から翻訳されたり、方言のバリエーションを考慮していない他のデータセットとは異なり、多様なスペイン語圏を反映している。
データセットの大きなサイズは、小さなデータセットとは異なり、さまざまなトピックをカバーすることができる。
我々は、データセットの包括的記述、既存のデータセットとの比較、顕著なIRモデルのベースライン評価を提供する。
我々のコントリビューションは、スペインのIR研究を推進し、スペイン語話者の情報アクセスを改善することを目的としている。
関連論文リスト
- mFollowIR: a Multilingual Benchmark for Instruction Following in Retrieval [61.17793165194077]
本稿では,検索モデルにおける命令追従能力のベンチマークであるmFollowIRを紹介する。
本稿では,多言語 (XX-XX) と多言語 (En-XX) のパフォーマンスについて述べる。
英語をベースとした学習者による多言語間性能は高いが,多言語設定では顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2025-01-31T16:24:46Z) - Enabling Low-Resource Language Retrieval: Establishing Baselines for Urdu MS MARCO [0.6554326244334868]
本稿では,機械翻訳によるMS MARCOデータセットの翻訳により作成した,最初の大規模Urdu IRデータセットを紹介する。
我々は、ウルドゥー語におけるIRのゼロショット学習によるベースライン結果を確立し、その後、mMARCO多言語IR手法を新たに翻訳されたデータセットに適用する。
以上の結果から,超微調整モデル(Urdu-mT5-mMARCO)は0.247のMRR@10,0.439のRecall@10を達成できた。
論文 参考訳(メタデータ) (2024-12-17T15:21:28Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
49言語にまたがる14kのウィキペディア文書と組み合わせた720の領域紛争クエリからなるベンチマークであるBordIRLinesを紹介した。
実験の結果,多言語文書を検索することで応答の整合性が向上し,純言語文書よりも地政学的バイアスが低減されることがわかった。
言語間RAGがIRから文書の内容にどのように影響するかについて、さらなる実験と事例研究を行った。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Benchmarks for Pir\'a 2.0, a Reading Comprehension Dataset about the
Ocean, the Brazilian Coast, and Climate Change [0.24091079613649843]
ピロア (Pir'a) は、海洋、ブラジル沿岸、気候変動に焦点を当てた読解データセットである。
このデータセットは多用な言語リソースであり、特に専門的な科学的知識を得るための現在の機械学習モデルの能力をテストするのに有用である。
論文 参考訳(メタデータ) (2023-09-19T21:56:45Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。
本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文 参考訳(メタデータ) (2021-12-27T12:45:06Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。