論文の概要: CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization
- arxiv url: http://arxiv.org/abs/2006.09595v1
- Date: Wed, 17 Jun 2020 01:32:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 19:25:53.289979
- Title: CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization
- Title(参考訳): CO-Search: セマンティック検索、質問回答、抽象要約によるCOVID-19情報検索
- Authors: Andre Esteva, Anuprit Kale, Romain Paulus, Kazuma Hashimoto, Wenpeng
Yin, Dragomir Radev, Richard Socher
- Abstract要約: CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
- 参考スコア(独自算出の注目度): 53.67205506042232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The COVID-19 global pandemic has resulted in international efforts to
understand, track, and mitigate the disease, yielding a significant corpus of
COVID-19 and SARS-CoV-2-related publications across scientific disciplines. As
of May 2020, 128,000 coronavirus-related publications have been collected
through the COVID-19 Open Research Dataset Challenge. Here we present
CO-Search, a retriever-ranker semantic search engine designed to handle complex
queries over the COVID-19 literature, potentially aiding overburdened health
workers in finding scientific answers during a time of crisis. The retriever is
built from a Siamese-BERT encoder that is linearly composed with a TF-IDF
vectorizer, and reciprocal-rank fused with a BM25 vectorizer. The ranker is
composed of a multi-hop question-answering module, that together with a
multi-paragraph abstractive summarizer adjust retriever scores. To account for
the domain-specific and relatively limited dataset, we generate a bipartite
graph of document paragraphs and citations, creating 1.3 million (citation
title, paragraph) tuples for training the encoder. We evaluate our system on
the data of the TREC-COVID information retrieval challenge. CO-Search obtains
top performance on the datasets of the first and second rounds, across several
key metrics: normalized discounted cumulative gain, precision, mean average
precision, and binary preference.
- Abstract(参考訳): 新型コロナウイルス(covid-19)の世界的パンデミックは、この病気を理解し、追跡し、軽減するための国際的な取り組みにつながった。
2020年5月現在、COVID-19 Open Research Dataset Challengeを通じて12万8000件の新型コロナウイルス関連の論文が収集されている。
今回紹介するのはco-searchという、新型コロナウイルス(covid-19)の文献に関する複雑な問合せを処理するための検索ランク付け型セマンティック検索エンジンだ。
このレトリバーは、TF-IDFベクターライザで線形に構成され、BM25ベクターライザで融合された逆ランクのシームズ-BERTエンコーダから構築されている。
ランチャーはマルチホップ質問応答モジュールで構成され、マルチパラグラフ要約要約器と共にレトリバースコアを調整する。
ドメイン固有の比較的限られたデータセットを考慮し,文書の段落と引用の2部グラフを生成し,エンコーダを訓練するための130万タプル(引用タイトル,段落)を作成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
CO-Searchは、正規化割引累積ゲイン、精度、平均平均精度、バイナリ嗜好など、いくつかの主要な指標で、第1ラウンドと第2ラウンドのデータセット上で最高のパフォーマンスを得る。
関連論文リスト
- $\texttt{MixGR}$: Enhancing Retriever Generalization for Scientific Domain through Complementary Granularity [88.78750571970232]
本稿では,クエリ文書マッチングに対する高密度検索者の認識を改善するために,$texttMixGR$を紹介する。
$texttMixGR$は、粒度に基づくさまざまなメトリクスを統合スコアに融合させ、包括的なクエリドキュメントの類似性を反映させる。
論文 参考訳(メタデータ) (2024-07-15T13:04:09Z) - Cocktail: A Comprehensive Information Retrieval Benchmark with LLM-Generated Documents Integration [60.535793237063885]
LLM(Large Language Models)の普及は、インターネット上のAIGC(AIGC)の流入につながっている。
AIGCの急増が情報検索システムに与える影響は、まだ明らかな疑問である。
我々は、この混合ソースデータランドスケープでIRモデルを評価するのに適したベンチマークであるCocktailを紹介した。
論文 参考訳(メタデータ) (2024-05-26T12:30:20Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - COVID-19 Literature Mining and Retrieval using Text Mining Approaches [0.0]
新型コロナウイルス感染症(COVID-19)は2019年後半に武漢で発生し、これまでに全世界で1億4800万人以上が感染している。
多くの学者や研究者が、covid-19に関する最新の発見を説明する論文を公表し始めた。
提案モデルでは,研究論文の大規模コーパスから残酷なタイトルを抽出しようと試みている。
論文 参考訳(メタデータ) (2022-05-29T22:34:19Z) - Unsupervised Text Mining of COVID-19 Records [0.0]
Twitterは、研究者が新型コロナウイルス(COVID-19)に反応して公衆衛生を測定するのに役立つ強力なツールだ。
本稿は、CORD-19と命名された新型コロナウイルスに関する既存の医療データセットを前処理し、教師付き分類タスクのためのデータセットを注釈付けした。
論文 参考訳(メタデータ) (2021-09-08T05:57:22Z) - COVID-19 Multidimensional Kaggle Literature Organization [3.201839066679614]
因子化は文書コーパスに隠されたパターンを発見できる強力な教師なし学習手法であることを示す。
コーパスの高次表現により,類似記事,関連雑誌,類似研究論文の執筆者,話題キーワードの同時グループ化が可能となることを示す。
論文 参考訳(メタデータ) (2021-07-17T06:16:36Z) - Multistage BiCross Encoder: Team GATE Entry for MLIA Multilingual
Semantic Search Task 2 [6.229830820553111]
MLIAタスク2多言語セマンティックサーチのためのチームGATEによって開発されたマルチステージBiCrossと呼ばれるサーチシステムを紹介します。
第1ラウンドの結果から,モノリンガルとバイリンガルの両方で,各ランキング指標の最先端性能が得られた。
論文 参考訳(メタデータ) (2021-01-08T13:59:26Z) - Repurposing TREC-COVID Annotations to Answer the Key Questions of
CORD-19 [4.847073702809032]
新型コロナウイルス感染症(COVID-19)は2019年後半に中国武漢で発生し、これまでに全世界で1400万人以上が感染している。
ホワイトハウスは、さまざまな新型コロナウイルスに関連する20万件以上の雑誌をまとめ、コーパスに関する重要な質問に回答するようコミュニティに指示した。
我々は, TREC-COVIDタスクの関連アノテーションを再利用して, CORD-19が提起する重要な問題に関連するCORD-19のジャーナル記事を特定することにした。
論文 参考訳(メタデータ) (2020-08-27T19:51:07Z) - CAiRE-COVID: A Question Answering and Query-focused Multi-Document
Summarization System for COVID-19 Scholarly Information Management [48.251211691263514]
我々は、リアルタイム質問応答(QA)とマルチドキュメント要約システムであるCAiRE-COVIDを紹介し、Kaggle COVID-19 Open Researchデータセットチャレンジで10のタスクのうちの1つを勝ち取った。
本システムの目的は,コミュニティからの優先度の高い質問に答えることによって,新型コロナウイルスに関する数多くの学術論文をマイニングすることにある。
論文 参考訳(メタデータ) (2020-05-04T15:07:27Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。