論文の概要: DuReader_retrieval: A Large-scale Chinese Benchmark for Passage
Retrieval from Web Search Engine
- arxiv url: http://arxiv.org/abs/2203.10232v1
- Date: Sat, 19 Mar 2022 03:24:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 17:22:06.814199
- Title: DuReader_retrieval: A Large-scale Chinese Benchmark for Passage
Retrieval from Web Search Engine
- Title(参考訳): dureader_retrieval: web検索エンジンからのパッセージ検索のための中国の大規模ベンチマーク
- Authors: Yifu Qiu, Hongyu Li, Yingqi Qu, Ying Chen, Qiaoqiao She, Jing Liu, Hua
Wu, Haifeng Wang
- Abstract要約: 経路探索のための大規模中国語データセットであるDuReader_retrievalを提案する。
DuReader_retrievalには90万以上のクエリとBaidu検索からの800万以上のユニークなエントリが含まれている。
- 参考スコア(独自算出の注目度): 40.175111285098176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present DuReader_retrieval, a large-scale Chinese dataset
for passage retrieval. DuReader_retrieval contains more than 90K queries and
over 8M unique passages from Baidu search. To ensure the quality of our
benchmark and address the shortcomings in other existing datasets, we (1)
reduce the false negatives in development and testing sets by pooling the
results from multiple retrievers with human annotations, (2) and remove the
semantically similar questions between training with development and testing
sets. We further introduce two extra out-of-domain testing sets for
benchmarking the domain generalization capability. Our experiment results
demonstrate that DuReader_retrieval is challenging and there is still plenty of
room for the community to improve, e.g. the generalization across domains,
salient phrase and syntax mismatch between query and paragraph and robustness.
DuReader_retrieval will be publicly available at
https://github.com/baidu/DuReader/tree/master/DuReader-Retrieval
- Abstract(参考訳): 本稿では,経路探索のための大規模中国語データセットであるDuReader_retrievalを提案する。
DuReader_retrievalには90万以上のクエリとBaidu検索からの800万以上のユニークなエントリが含まれている。
ベンチマークの品質を保証し,既存のデータセットの欠点に対処するため,(1)人間のアノテーションで複数の検索者の結果をプールすることで,開発とテストセットの誤りを低減し,(2)開発とテストセットによるトレーニングの間に意味論的に類似した疑問を取り除く。
さらに、ドメイン一般化能力をベンチマークするための2つのドメイン外テストセットを導入します。
実験の結果、DuReader_retrievalは困難であり、ドメイン間の一般化、クエリと段落間の適切なフレーズと構文ミスマッチ、ロバストネスなど、コミュニティが改善する余地がまだたくさんあることが示された。
dureader_retrievalはhttps://github.com/baidu/dureader/tree/master/dureader-retrievalで公開されている。
関連論文リスト
- UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis [7.952225508086861]
学術文献やファイナンスによる質問応答では、データはHTMLやPDF形式の生のテキストや表によく見られる。
2,965の現実世界の文書と29,590のエキスパート注釈付きQ&AペアからなるベンチマークスイートであるUnstructured Document Analysis (UDA)を導入する。
論文 参考訳(メタデータ) (2024-06-21T14:29:39Z) - Cross-lingual Contextualized Phrase Retrieval [63.80154430930898]
そこで本研究では,言語間関係の単語検索を多義的に行うタスクの定式化を提案する。
我々は、コントラスト学習を用いて、言語間コンテクスト対応句検索(CCPR)を訓練する。
フレーズ検索タスクでは、CCPRはベースラインをかなり上回り、少なくとも13ポイント高いトップ1の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T14:46:51Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Typo-Robust Representation Learning for Dense Retrieval [6.148710657178892]
現実世界の設定における密集検索の主な課題の1つは、ミススペルされた単語を含むクエリの処理である。
ミススペルクエリを扱う一般的なアプローチは、ミススペルクエリとそれらのプリスタントクエリとの差の最小化である。
ミススペルクエリとプリスタンクエリのアライメントのみに焦点を当てた既存のアプローチとは異なり,本手法は各ミススペルクエリと周辺クエリとのコントラストも改善する。
論文 参考訳(メタデータ) (2023-06-17T13:48:30Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Constraint Translation Candidates: A Bridge between Neural Query
Translation and Cross-lingual Information Retrieval [45.88734029123836]
本稿では,QTのオープンターゲット語彙検索空間を,検索インデックスデータベースから抽出した重要な単語の集合に限定することで,問題を緩和する新しい手法を提案する。
提案手法を実単語CLIRシステムで活用し,検討した。
論文 参考訳(メタデータ) (2020-10-26T15:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。