論文の概要: LADER: Log-Augmented DEnse Retrieval for Biomedical Literature Search
- arxiv url: http://arxiv.org/abs/2304.04590v1
- Date: Mon, 10 Apr 2023 13:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:50:08.372573
- Title: LADER: Log-Augmented DEnse Retrieval for Biomedical Literature Search
- Title(参考訳): LADER: バイオメディカル文献検索のためのログ拡張Dnse検索
- Authors: Qiao Jin, Andrew Shin, Zhiyong Lu
- Abstract要約: Log-Augmented Dense Retrieval (LADER)は、類似のトレーニングクエリから取得したクリックログで、密集したレトリバーを拡張するシンプルなプラグインモジュールである。
LADERは、与えられたクエリに類似したドキュメントとクエリの両方を、密集した検索者によって見つける。
LADERは、最近リリースされたバイオメディカル文献検索のベンチマークであるTripClick上で、新しい最先端(SOTA)パフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 10.200377742590089
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Queries with similar information needs tend to have similar document clicks,
especially in biomedical literature search engines where queries are generally
short and top documents account for most of the total clicks. Motivated by
this, we present a novel architecture for biomedical literature search, namely
Log-Augmented DEnse Retrieval (LADER), which is a simple plug-in module that
augments a dense retriever with the click logs retrieved from similar training
queries. Specifically, LADER finds both similar documents and queries to the
given query by a dense retriever. Then, LADER scores relevant (clicked)
documents of similar queries weighted by their similarity to the input query.
The final document scores by LADER are the average of (1) the document
similarity scores from the dense retriever and (2) the aggregated document
scores from the click logs of similar queries. Despite its simplicity, LADER
achieves new state-of-the-art (SOTA) performance on TripClick, a recently
released benchmark for biomedical literature retrieval. On the frequent (HEAD)
queries, LADER largely outperforms the best retrieval model by 39% relative
NDCG@10 (0.338 v.s. 0.243). LADER also achieves better performance on the less
frequent (TORSO) queries with 11% relative NDCG@10 improvement over the
previous SOTA (0.303 v.s. 0.272). On the rare (TAIL) queries where similar
queries are scarce, LADER still compares favorably to the previous SOTA method
(NDCG@10: 0.310 v.s. 0.295). On all queries, LADER can improve the performance
of a dense retriever by 24%-37% relative NDCG@10 while not requiring additional
training, and further performance improvement is expected from more logs. Our
regression analysis has shown that queries that are more frequent, have higher
entropy of query similarity and lower entropy of document similarity, tend to
benefit more from log augmentation.
- Abstract(参考訳): 類似した情報を持つクエリは、類似のドキュメントクリックを持つ傾向があり、特に生物医学文献検索エンジンでは、クエリが一般的に短く、上位のドキュメントがクリックのほとんどを占める。
そこで本研究では,類似の学習クエリから検索したクリックログを用いて,高密度検索を補完する簡易プラグインモジュールであるlog-augmented dense retrieval (lader)を提案する。
特にladerは、類似したドキュメントと、所定のクエリに対するクエリの両方を、高密度のレトリバーで見つける。
次に、LADERは、入力クエリと類似性によって重み付けられた類似クエリの関連(クリック)ドキュメントをスコアする。
LADERによる最終文書スコアは、(1)高密度検索器からの文書類似度スコア、(2)類似クエリのクリックログからの集計文書スコアの平均である。
その単純さにもかかわらず、LADERはバイオメディカル文献検索のための最近リリースされたベンチマークであるTripClickで、新しい最先端(SOTA)パフォーマンスを達成した。
頻繁な (HEAD) クエリでは、LADER は NDCG@10 (0.338 v.s. 0.243) に対して 39% で最高の検索モデルを上回っている。
LADERはまた、従来のSOTA(0.303 v.s.0.272)よりも11%の相対的なNDCG@10の改善を持つ、頻度の低い(TORSO)クエリのパフォーマンスも向上している。
類似したクエリが不足しているまれな(TAIL)クエリでは、LADERは以前のSOTAメソッド(NDCG@10:0.310 v.s.0.295)と好意的に比較する。
すべてのクエリにおいて、laderは、追加のトレーニングを必要とせずに、24%-37%の相対的なndcg@10で、密集したレトリバーのパフォーマンスを向上させることができ、より多くのログからさらなるパフォーマンス改善が期待できる。
我々の回帰分析によると、クエリの頻度が高く、クエリ類似性のエントロピーが高く、ドキュメント類似性のエントロピーが低いクエリは、ログ拡張の恩恵を受ける傾向にある。
関連論文リスト
- Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [64.5769639710927]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - End-to-End Multihop Retrieval for Compositional Question Answering over
Long Documents [93.55268936974971]
本稿では,長い文書の合成問題に答えるマルチホップ検索手法であるDocHopperを提案する。
各ステップでDocHopperは文書から段落や文を検索し、検索した結果とクエリを混合し、次のステップでクエリを更新する。
文書構造を活用すれば、長い文書の質問応答や検索性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2021-06-01T03:13:35Z) - APRF-Net: Attentive Pseudo-Relevance Feedback Network for Query
Categorization [12.634704014206294]
クエリ分類のためのレアクエリの表現を強化するために,textbfAttentive textbfPseudo textbfRelevance textbfFeedback textbfNetwork (APRF-Net) という新しいディープニューラルネットワークを提案する。
以上の結果から,APRF-Netはクエリ分類をF1@1$スコアで5.9%改善し,レアクエリでは8.2%向上した。
論文 参考訳(メタデータ) (2021-04-23T02:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。