論文の概要: WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2502.20936v1
- Date: Fri, 28 Feb 2025 10:46:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:08.176024
- Title: WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval
- Title(参考訳): WebFAQ:Dense Retrievalのための自然Q&Aデータセットの多言語コレクション
- Authors: Michael Dinzinger, Laura Caspari, Kanishka Ghosh Dastidar, Jelena Mitrović, Michael Granitzer,
- Abstract要約: WebFAQ(英語: WebFAQ)は、FAQスタイルのスキーマ.orgアノテーションから派生した、オープンドメインの質問応答データセットの大規模なコレクションである。
データ収集は、75言語にまたがる9600万の自然質問回答(QA)ペアで構成されており、うち4700万(49%)が非英語のサンプルである。
WebFAQは、合計1120万QAペアのモノリンガル検索ベンチマーク20の基盤となっている。
- 参考スコア(独自算出の注目度): 0.8478469524684645
- License:
- Abstract: We present WebFAQ, a large-scale collection of open-domain question answering datasets derived from FAQ-style schema.org annotations. In total, the data collection consists of 96 million natural question-answer (QA) pairs across 75 languages, including 47 million (49%) non-English samples. WebFAQ further serves as the foundation for 20 monolingual retrieval benchmarks with a total size of 11.2 million QA pairs (5.9 million non-English). These datasets are carefully curated through refined filtering and near-duplicate detection, yielding high-quality resources for training and evaluating multilingual dense retrieval models. To empirically confirm WebFAQ's efficacy, we use the collected QAs to fine-tune an in-domain pretrained XLM-RoBERTa model. Through this process of dataset-specific fine-tuning, the model achieves significant retrieval performance gains, which generalize - beyond WebFAQ - to other multilingual retrieval benchmarks evaluated in zero-shot setting. Last but not least, we utilize WebFAQ to construct a set of QA-aligned bilingual corpora spanning over 1000 language pairs using state-of-the-art bitext mining and automated LLM-assessed translation evaluation. Due to our advanced, automated method of bitext dataset generation, the resulting bilingual corpora demonstrate higher translation quality compared to similar datasets. WebFAQ and all associated resources are publicly available on GitHub and HuggingFace.
- Abstract(参考訳): WebFAQは、FAQスタイルのスキーマ.orgアノテーションをベースとした、大規模なオープンドメイン質問応答データセットのコレクションである。
データ収集は、75言語にまたがる9600万の自然質問回答(QA)ペアで構成されており、うち4700万(49%)が非英語のサンプルである。
WebFAQは、さらに1120万QAペア(英語以外の590万)のモノリンガル検索ベンチマーク20の基盤となっている。
これらのデータセットは、精細なフィルタリングとほぼ重複検出によって慎重にキュレートされ、トレーニングや多言語密集検索モデルの評価のための高品質なリソースが得られる。
WebFAQの有効性を実証的に確認するために、収集したQAを用いて、ドメイン内で事前訓練されたXLM-RoBERTaモデルを微調整する。
このデータセット固有の微調整のプロセスを通じて、このモデルは、WebFAQを超えて、ゼロショット設定で評価された他の多言語検索ベンチマークに一般化する、大幅な検索性能向上を達成する。
最後に、WebFAQを用いて1000以上の言語対にまたがるQA対応バイリンガルコーパスを、最先端のbitextマイニングとLLM自動翻訳評価を用いて構築する。
bitextデータセット生成の高度で自動化された方法により、結果として得られるバイリンガルコーパスは、類似したデータセットと比較して高い翻訳品質を示す。
WebFAQと関連するリソースはすべて、GitHubとHuggingFaceで公開されている。
関連論文リスト
- MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - FoQA: A Faroese Question-Answering Dataset [2.91872340568037]
2,000のサンプルからなるファロア抽出質問回答データセットであるFoQAについて述べる。
このデータセットは、LLM(Large Language Models)と人間の検証を組み合わせた半自動アプローチを用いて作成された。
論文 参考訳(メタデータ) (2025-02-11T15:33:17Z) - UQA: Corpus for Urdu Question Answering [3.979019316355144]
本稿では,ウルドゥー語における質問応答とテキスト理解のための新しいデータセットであるUQAを紹介する。
UQAは、大規模な英語QAデータセットであるSQuAD2.0(Stanford Question Answering dataset)を翻訳することによって生成される。
本稿では,Google TranslatorとSeamless M4Tの2つの候補の中から,最適な翻訳モデルを選択し,評価するプロセスについて述べる。
論文 参考訳(メタデータ) (2024-05-02T16:44:31Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - LMGQS: A Large-scale Dataset for Query-focused Summarization [77.6179359525065]
我々は4つの一般的な要約ベンチマークを新しいQFSベンチマークデータセットであるLMGQSに変換する。
我々は最先端の要約モデルを用いてベースラインを確立する。
複数の既存のQFSベンチマークにおいて、最先端のゼロショットと教師付きパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-22T14:53:45Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - Entity Linking in 100 Languages [3.2099113524828513]
言語固有の言及を言語に依存しない知識ベースに分解する多言語エンティティリンクの新しい定式化を提案する。
この新たな設定でデュアルエンコーダをトレーニングし、機能表現の改善、負のマイニング、補助的なエンティティペアリングタスクによる事前作業に基づいて構築する。
このモデルは、より限定的な言語間リンクタスクにより、最先端の結果より優れています。
論文 参考訳(メタデータ) (2020-11-05T07:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。