論文の概要: WebFAQ 2.0: A Multilingual QA Dataset with Mined Hard Negatives for Dense Retrieval
- arxiv url: http://arxiv.org/abs/2602.17327v1
- Date: Thu, 19 Feb 2026 12:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.033241
- Title: WebFAQ 2.0: A Multilingual QA Dataset with Mined Hard Negatives for Dense Retrieval
- Title(参考訳): WebFAQ 2.0: Dense Retrievalのための最小のハードネガティクスを備えた多言語QAデータセット
- Authors: Michael Dinzinger, Laura Caspari, Ali Salman, Irvin Topi, Jelena Mitrović, Michael Granitzer,
- Abstract要約: WebFAQ 2.0は、WebFAQデータセットの新バージョンである。
以前のバージョンと比較すると、多言語対応のQAペアの数は14.3Mを超えている。
コミュニティからのフィードバックに応じて、20言語にまたがる125万のクエリで、密集したレトリバーをトレーニングするためのハードネガティブデータセットもリリースしています。
- 参考スコア(独自算出の注目度): 2.043884585536348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce WebFAQ 2.0, a new version of the WebFAQ dataset, containing 198 million FAQ-based natural question-answer pairs across 108 languages. Compared to the previous version, it significantly expands multilingual coverage and the number of bilingual aligned QA pairs to over 14.3M, making it the largest FAQ-based resource. Unlike the original release, WebFAQ 2.0 uses a novel data collection strategy that directly crawls and extracts relevant web content, resulting in a substantially more diverse and multilingual dataset with richer context through page titles and descriptions. In response to community feedback, we also release a hard negatives dataset for training dense retrievers, with 1.25M queries across 20 languages. These hard negatives were mined using a two-stage retrieval pipeline and include cross-encoder scores for 200 negatives per query. We further show how this resource enables two primary fine-tuning strategies for dense retrievers: Contrastive Learning with MultipleNegativesRanking loss, and Knowledge Distillation with MarginMSE loss. WebFAQ 2.0 is not a static resource but part of a long-term effort. Since late 2025, structured FAQs are being regularly released through the Open Web Index, enabling continuous expansion and refinement. We publish the datasets and training scripts to facilitate further research in multilingual and cross-lingual IR. The dataset itself and all related resources are publicly available on GitHub and HuggingFace.
- Abstract(参考訳): 我々は,WebFAQデータセットの新バージョンであるWebFAQ 2.0を紹介した。
以前のバージョンと比較して、多言語対応のQAペアの数は14.3Mを超え、FAQベースのリソースとしては最大である。
オリジナルのリリースとは異なり、WebFAQ 2.0は、関連するWebコンテンツを直接クロールして抽出する、新しいデータ収集戦略を採用している。
コミュニティからのフィードバックに応じて、20言語にまたがる125万のクエリで、密集したレトリバーをトレーニングするためのハードネガティブデータセットもリリースしています。
これらのハードな負は、2段階の検索パイプラインを使用してマイニングされ、クエリ毎に200の負のクロスエンコーダスコアを含む。
さらに,この資源が高密度検索者に対して,マルチNegativesRanking損失を伴うコントラスト学習と,MarginMSE損失による知識蒸留の2つの主要な微調整戦略を実現する方法を示す。
WebFAQ 2.0は静的なリソースではなく、長期的な取り組みの一部です。
2025年後半以降、構造化FAQはOpen Web Indexを通じて定期的にリリースされ、継続的な拡張と改善を可能にしている。
データセットとトレーニングスクリプトを公開し、多言語および多言語IRのさらなる研究を促進する。
データセット自身と関連するすべてのリソースは、GitHubとHuggingFaceで公開されている。
関連論文リスト
- Text-to-SPARQL Goes Beyond English: Multilingual Question Answering Over Knowledge Graphs through Human-Inspired Reasoning [51.203811759364925]
mKGQAgentは、自然言語の質問をSPARQLクエリに変換し、モジュール化された解釈可能なサブタスクに変換するタスクを分解する。
2025年のText2SPARQLチャレンジにおいて、DBpediaとCorporateベースのKGQAベンチマークに基づいて評価され、私たちのアプローチは、他の参加者の中で第一に行われました。
論文 参考訳(メタデータ) (2025-07-22T19:23:03Z) - IndicRAGSuite: Large-Scale Datasets and a Benchmark for Indian Language RAG Systems [17.88837706307504]
IndicMSMarcoは13のインドの言語における検索品質と応答生成を評価するための多言語ベンチマークである。
我々は、最先端のLLMを用いて、19のインドの言語ウィキペディアから派生した大規模な(質問、回答、関連する)データセットを構築した。
論文 参考訳(メタデータ) (2025-06-02T12:55:51Z) - WebFAQ: A Multilingual Collection of Natural Q&A Datasets for Dense Retrieval [0.8478469524684645]
WebFAQ(英語: WebFAQ)は、FAQスタイルのスキーマ.orgアノテーションから派生した、オープンドメインの質問応答データセットの大規模なコレクションである。
データ収集は、75言語にまたがる9600万の自然質問回答(QA)ペアで構成されており、うち4700万(49%)が非英語のサンプルである。
WebFAQは、合計1120万QAペアのモノリンガル検索ベンチマーク20の基盤となっている。
論文 参考訳(メタデータ) (2025-02-28T10:46:52Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - Semantic Parsing for Conversational Question Answering over Knowledge
Graphs [63.939700311269156]
本研究では,ユーザの質問にSparqlパースとアノテートし,システム回答が実行結果に対応するデータセットを開発する。
本稿では,2つの意味解析手法を提案し,その課題を強調した。
私たちのデータセットとモデルはhttps://github.com/Edinburgh/SPICE.orgで公開されています。
論文 参考訳(メタデータ) (2023-01-28T14:45:11Z) - MFAQ: a Multilingual FAQ Dataset [9.625301186732598]
本稿では,最初の多言語FAQデータセットを公開する。
21の異なる言語で、Webから約6万のFAQペアを収集しました。
Dense Passage Retrieval(DPR)と同様のセットアップを採用し、このデータセット上でさまざまなバイエンコーダをテストする。
論文 参考訳(メタデータ) (2021-09-27T08:43:25Z) - Multilingual Compositional Wikidata Questions [9.602430657819564]
ウィキデータに基づく複数言語で並列な問合せ対のデータセットを作成する手法を提案する。
このデータを使って、ヘブライ語、カンナダ語、中国語、英語のセマンティクスをトレーニングし、多言語セマンティクス解析の現在の強みと弱点をよりよく理解します。
論文 参考訳(メタデータ) (2021-08-07T19:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。