論文の概要: Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval
- arxiv url: http://arxiv.org/abs/2203.03367v1
- Date: Mon, 7 Mar 2022 13:20:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 21:12:33.844609
- Title: Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval
- Title(参考訳): Multi-CPR: パス検索のためのマルチドメイン中国語データセット
- Authors: Dingkun Long, Qiong Gao, Kuan Zou, Guangwei Xu, Pengjun Xie, Ruijie
Guo, Jian Xu, Guanjun Jiang, Luxi Xing, Ping Yang
- Abstract要約: 経路検索のための新しい多領域中国語データセット(Multi-CPR)を提案する。
データセットはEコマース、エンターテイメントビデオ、メディカルを含む3つの異なるドメインから収集される。
一般ドメインからのデータセットでトレーニングされた検索モデルの性能は、特定のドメインで必然的に低下する。
- 参考スコア(独自算出の注目度): 19.000263567641817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Passage retrieval is a fundamental task in information retrieval (IR)
research, which has drawn much attention recently. In English field, the
availability of large-scale annotated dataset (e.g, MS MARCO) and the emergence
of deep pre-trained language models (e.g, BERT) have resulted in a substantial
improvement of existing passage retrieval systems. However, in Chinese field,
especially for specific domain, passage retrieval systems are still immature
due to quality-annotated dataset being limited by scale. Therefore, in this
paper, we present a novel multi-domain Chinese dataset for passage retrieval
(Multi-CPR). The dataset is collected from three different domains, including
E-commerce, Entertainment video and Medical. Each dataset contains millions of
passages and a certain amount of human annotated query-passage related pairs.
We implement various representative passage retrieval methods as baselines. We
find that the performance of retrieval models trained on dataset from general
domain will inevitably decrease on specific domain. Nevertheless, passage
retrieval system built on in-domain annotated dataset can achieve significant
improvement, which indeed demonstrates the necessity of domain labeled data for
further optimization. We hope the release of the Multi-CPR dataset could
benchmark Chinese passage retrieval task in specific domain and also make
advances for future studies.
- Abstract(参考訳): 情報検索は情報検索(IR)研究における基本的な課題であり,近年注目されている。
英語の分野では、大規模な注釈付きデータセット(MS MARCOなど)が利用可能となり、深い事前訓練された言語モデル(BERTなど)が出現し、既存のパス検索システムが大幅に改善された。
しかし、中国の分野、特に特定の領域においては、品質アノテートデータセットが規模によって制限されているため、通路検索システムは未成熟である。
そこで本稿では,経路検索のための新しい多領域中国語データセット(Multi-CPR)を提案する。
データセットはEコマース、エンターテイメントビデオ、メディカルを含む3つの異なるドメインから収集される。
各データセットには数百万のパスと、人間の注釈付きクエリパス関連ペアが含まれている。
本研究は,様々な代表経路検索手法をベースラインとして実装する。
一般ドメインからのデータセットでトレーニングされた検索モデルの性能は、特定のドメインで必然的に低下する。
にもかかわらず、in-domain annotated dataset上に構築されたパッセージ検索システムは、大幅な改善を達成でき、さらなる最適化のためにドメインラベル付きデータが必要となる。
我々は,Multi-CPRデータセットのリリースによって,特定の領域における中国語通訳検索タスクをベンチマークし,今後の研究の進展を期待する。
関連論文リスト
- MultiADE: A Multi-domain Benchmark for Adverse Drug Event Extraction [11.458594744457521]
アクティブな有害事象監視は、異なるデータソースからの逆薬物イベント(ADE)を監視する。
ほとんどのデータセットや共有タスクは、特定のタイプのテキストからADEを抽出することに焦点を当てている。
ドメインの一般化 - 新しい、目に見えないドメイン(テキストタイプ)でうまく機能する機械学習モデルの能力は、まだ解明されていない。
我々はMultiADEと名づけた有害薬物イベント抽出のためのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-28T09:57:28Z) - A Dataset of Open-Domain Question Answering with Multiple-Span Answers [11.291635421662338]
マルチスパン回答抽出(Multi-span answer extract)は、マルチスパン質問応答(MSQA)のタスクとしても知られ、現実世界のアプリケーションにとって重要な課題である。
中国語ではMSQAベンチマークが公開されていない。
CLEANは、中国の総合的なマルチスパン質問応答データセットである。
論文 参考訳(メタデータ) (2024-02-15T13:03:57Z) - Bridging the Domain Gaps in Context Representations for k-Nearest
Neighbor Neural Machine Translation [57.49095610777317]
$k$-Nearestの隣人機械翻訳($k$NN-MT)は、新しい翻訳ドメインに非パラメトリックに適応する能力によって注目を集めている。
本稿では,元のデータストアを再構築することで,$k$NN-MTのデータストア検索を高速化する手法を提案する。
提案手法は,$k$NN-MTのデータストア検索と翻訳品質を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T03:04:42Z) - NaSGEC: a Multi-Domain Chinese Grammatical Error Correction Dataset from
Native Speaker Texts [51.64770549988806]
複数のドメインからのネイティブ話者テキストに対する中国語文法誤り訂正(CGEC)の研究を容易にする新しいデータセットであるNaSGECを紹介する。
対象ドメインを広げるために,3つの母国ドメイン,すなわちソーシャルメディア,科学文献,試験から12,500の文に対する複数の参照を注釈付けする。
我々は,最先端CGECモデルと異なるトレーニングデータを用いて,NaSGECのベンチマーク結果を示す。
論文 参考訳(メタデータ) (2023-05-25T13:05:52Z) - Combining Data Generation and Active Learning for Low-Resource Question Answering [23.755283239897132]
低リソース環境での性能向上を図るために,質問応答生成によるデータ拡張とアクティブラーニングを組み合わせた新しい手法を提案する。
我々の新しいアプローチは、人間がデータ生成アプローチに組み込まれることで、低リソースでドメイン固有の設定のパフォーマンスが向上することを示している。
論文 参考訳(メタデータ) (2022-11-27T16:31:33Z) - Addressing Issues of Cross-Linguality in Open-Retrieval Question
Answering Systems For Emergent Domains [67.99403521976058]
新型コロナウイルスの緊急ドメインに対する言語横断的オープン検索型質問応答システムについて紹介する。
本システムでは,検索した文書の信頼性を確保するために,学術論文のコーパスを採用している。
深いセマンティック・レトリバーは、我々の英語からすべてのデータに対するトレーニングの恩恵が大きく、言語横断環境ではBM25ベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-01-26T19:27:32Z) - Variational Attention: Propagating Domain-Specific Knowledge for
Multi-Domain Learning in Crowd Counting [75.80116276369694]
群集カウントでは, 激しいラベル付けの問題により, 新しい大規模データセットを収集する難易度が知覚される。
マルチドメイン共同学習を活用し,DKPNet(Domain-specific Knowledge Propagating Network)を提案する。
主に、異なるドメインに対する注意分布を明示的にモデル化する、新しい変動注意法(VA)技術を提案する。
論文 参考訳(メタデータ) (2021-08-18T08:06:37Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。