論文の概要: MessIRve: A Large-Scale Spanish Information Retrieval Dataset
- arxiv url: http://arxiv.org/abs/2409.05994v1
- Date: Mon, 9 Sep 2024 18:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 20:02:25.030279
- Title: MessIRve: A Large-Scale Spanish Information Retrieval Dataset
- Title(参考訳): MessIRve: 大規模なスペイン情報検索データセット
- Authors: Francisco Valentini, Viviana Cotik, Damián Furman, Ivan Bercovich, Edgar Altszyler, Juan Manuel Pérez,
- Abstract要約: MessIRveは、GoogleのオートコンプリートAPIから約730万のクエリと、Wikipediaからソースされた関連するドキュメントを備えた、大規模なスペインのIRデータセットである。
我々のコントリビューションは、スペインのIR研究を推進し、スペイン語話者の情報アクセスを改善することを目的としている。
- 参考スコア(独自算出の注目度): 1.5503410315996757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information retrieval (IR) is the task of finding relevant documents in response to a user query. Although Spanish is the second most spoken native language, current IR benchmarks lack Spanish data, hindering the development of information access tools for Spanish speakers. We introduce MessIRve, a large-scale Spanish IR dataset with around 730 thousand queries from Google's autocomplete API and relevant documents sourced from Wikipedia. MessIRve's queries reflect diverse Spanish-speaking regions, unlike other datasets that are translated from English or do not consider dialectal variations. The large size of the dataset allows it to cover a wide variety of topics, unlike smaller datasets. We provide a comprehensive description of the dataset, comparisons with existing datasets, and baseline evaluations of prominent IR models. Our contributions aim to advance Spanish IR research and improve information access for Spanish speakers.
- Abstract(参考訳): 情報検索(英語: Information Search, IR)とは、ユーザの問い合わせに応じて関連文書を検索するタスクである。
スペイン語は2番目に話されているネイティブ言語であるが、現在のIRベンチマークにはスペイン語のデータがないため、スペイン語話者のための情報アクセスツールの開発が妨げられている。
MessIRveは、GoogleのオートコンプリートAPIから約730万のクエリと、Wikipediaからソースされた関連ドキュメントを備えた、大規模なスペインのIRデータセットである。
MessIRveのクエリは、英語から翻訳されたり、方言のバリエーションを考慮していない他のデータセットとは異なり、多様なスペイン語圏を反映している。
データセットの大きなサイズは、小さなデータセットとは異なり、さまざまなトピックをカバーすることができる。
我々は、データセットの包括的記述、既存のデータセットとの比較、顕著なIRモデルのベースライン評価を提供する。
我々のコントリビューションは、スペインのIR研究を推進し、スペイン語話者の情報アクセスを改善することを目的としている。
関連論文リスト
- Aya Dataset: An Open-Access Collection for Multilingual Instruction
Tuning [49.79783940841352]
既存のデータセットはほとんどが英語で書かれている。
私たちは世界中の言語に精通した話者と協力して、指示と完了の自然な例を集めています。
既存のデータセットを114言語でテンプレート化し、翻訳することで、5億1300万のインスタンスを含む、これまでで最も広範な多言語コレクションを作成します。
論文 参考訳(メタデータ) (2024-02-09T18:51:49Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Benchmarks for Pir\'a 2.0, a Reading Comprehension Dataset about the
Ocean, the Brazilian Coast, and Climate Change [0.24091079613649843]
ピロア (Pir'a) は、海洋、ブラジル沿岸、気候変動に焦点を当てた読解データセットである。
このデータセットは多用な言語リソースであり、特に専門的な科学的知識を得るための現在の機械学習モデルの能力をテストするのに有用である。
論文 参考訳(メタデータ) (2023-09-19T21:56:45Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - Soft Prompt Decoding for Multilingual Dense Retrieval [30.766917713997355]
本稿では,MLIRタスクへの言語間情報検索のための最先端手法の適用により,準最適性能が得られることを示す。
これは多言語コレクションの不均一性と不均衡性に起因する。
KD-SPDはMLIRの新しいソフトプロンプトデコーディング手法で、異なる言語における文書の表現を同じ埋め込み空間に暗黙的に「翻訳」する。
論文 参考訳(メタデータ) (2023-05-15T21:17:17Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - CONCRETE: Improving Cross-lingual Fact-checking with Cross-lingual
Retrieval [73.48591773882052]
ほとんどのファクトチェックアプローチは、他の言語におけるデータ不足の問題にのみ英語に焦点を当てている。
クロスリンガル検索を付加した最初のファクトチェックフレームワークを提案する。
提案したクロスリンガル逆クローズタスク(XICT)を用いてレトリバーを訓練する。
論文 参考訳(メタデータ) (2022-09-05T17:36:14Z) - A Survey on non-English Question Answering Dataset [0.0]
この調査の目的は、多くの研究者がリリースした既存のデータセットを認識し、要約し、分析することである。
本稿では,フランス語,ドイツ語,日本語,中国語,アラビア語,ロシア語など,英語以外の共通言語で利用できる質問応答データセットと,多言語および多言語間の質問応答データセットについて検討する。
論文 参考訳(メタデータ) (2021-12-27T12:45:06Z) - A Simple and Effective Method To Eliminate the Self Language Bias in
Multilingual Representations [7.571549274473274]
言語に依存しない意味言語情報の分離は、多言語表現モデルのための新たな研究方向である。
言語情報除去(LIR)は,多言語データに基づいて事前学習した多言語表現における意味関連コンポーネントから言語識別情報を抽出する。
LIRは、弱アライメント多言語システムでは、意味空間の主成分が言語アイデンティティ情報をエンコードしていることを明らかにする。
論文 参考訳(メタデータ) (2021-09-10T08:15:37Z) - MTVR: Multilingual Moment Retrieval in Videos [89.24431389933703]
大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。
データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。
両言語からのデータを学習し,操作する多言語モーメント検索モデルであるmXMLを提案する。
論文 参考訳(メタデータ) (2021-07-30T20:01:03Z) - MLSUM: The Multilingual Summarization Corpus [29.943949944682196]
MLSUMは、最初の大規模MultiLingual Summarizationデータセットである。
5つの言語で1.5M以上の記事/サマリーペアを含む。
論文 参考訳(メタデータ) (2020-04-30T15:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。