論文の概要: LADER: Log-Augmented DEnse Retrieval for Biomedical Literature Search
- arxiv url: http://arxiv.org/abs/2304.04590v1
- Date: Mon, 10 Apr 2023 13:51:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 14:50:08.372573
- Title: LADER: Log-Augmented DEnse Retrieval for Biomedical Literature Search
- Title(参考訳): LADER: バイオメディカル文献検索のためのログ拡張Dnse検索
- Authors: Qiao Jin, Andrew Shin, Zhiyong Lu
- Abstract要約: Log-Augmented Dense Retrieval (LADER)は、類似のトレーニングクエリから取得したクリックログで、密集したレトリバーを拡張するシンプルなプラグインモジュールである。
LADERは、与えられたクエリに類似したドキュメントとクエリの両方を、密集した検索者によって見つける。
LADERは、最近リリースされたバイオメディカル文献検索のベンチマークであるTripClick上で、新しい最先端(SOTA)パフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 10.200377742590089
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Queries with similar information needs tend to have similar document clicks,
especially in biomedical literature search engines where queries are generally
short and top documents account for most of the total clicks. Motivated by
this, we present a novel architecture for biomedical literature search, namely
Log-Augmented DEnse Retrieval (LADER), which is a simple plug-in module that
augments a dense retriever with the click logs retrieved from similar training
queries. Specifically, LADER finds both similar documents and queries to the
given query by a dense retriever. Then, LADER scores relevant (clicked)
documents of similar queries weighted by their similarity to the input query.
The final document scores by LADER are the average of (1) the document
similarity scores from the dense retriever and (2) the aggregated document
scores from the click logs of similar queries. Despite its simplicity, LADER
achieves new state-of-the-art (SOTA) performance on TripClick, a recently
released benchmark for biomedical literature retrieval. On the frequent (HEAD)
queries, LADER largely outperforms the best retrieval model by 39% relative
NDCG@10 (0.338 v.s. 0.243). LADER also achieves better performance on the less
frequent (TORSO) queries with 11% relative NDCG@10 improvement over the
previous SOTA (0.303 v.s. 0.272). On the rare (TAIL) queries where similar
queries are scarce, LADER still compares favorably to the previous SOTA method
(NDCG@10: 0.310 v.s. 0.295). On all queries, LADER can improve the performance
of a dense retriever by 24%-37% relative NDCG@10 while not requiring additional
training, and further performance improvement is expected from more logs. Our
regression analysis has shown that queries that are more frequent, have higher
entropy of query similarity and lower entropy of document similarity, tend to
benefit more from log augmentation.
- Abstract(参考訳): 類似した情報を持つクエリは、類似のドキュメントクリックを持つ傾向があり、特に生物医学文献検索エンジンでは、クエリが一般的に短く、上位のドキュメントがクリックのほとんどを占める。
そこで本研究では,類似の学習クエリから検索したクリックログを用いて,高密度検索を補完する簡易プラグインモジュールであるlog-augmented dense retrieval (lader)を提案する。
特にladerは、類似したドキュメントと、所定のクエリに対するクエリの両方を、高密度のレトリバーで見つける。
次に、LADERは、入力クエリと類似性によって重み付けられた類似クエリの関連(クリック)ドキュメントをスコアする。
LADERによる最終文書スコアは、(1)高密度検索器からの文書類似度スコア、(2)類似クエリのクリックログからの集計文書スコアの平均である。
その単純さにもかかわらず、LADERはバイオメディカル文献検索のための最近リリースされたベンチマークであるTripClickで、新しい最先端(SOTA)パフォーマンスを達成した。
頻繁な (HEAD) クエリでは、LADER は NDCG@10 (0.338 v.s. 0.243) に対して 39% で最高の検索モデルを上回っている。
LADERはまた、従来のSOTA(0.303 v.s.0.272)よりも11%の相対的なNDCG@10の改善を持つ、頻度の低い(TORSO)クエリのパフォーマンスも向上している。
類似したクエリが不足しているまれな(TAIL)クエリでは、LADERは以前のSOTAメソッド(NDCG@10:0.310 v.s.0.295)と好意的に比較する。
すべてのクエリにおいて、laderは、追加のトレーニングを必要とせずに、24%-37%の相対的なndcg@10で、密集したレトリバーのパフォーマンスを向上させることができ、より多くのログからさらなるパフォーマンス改善が期待できる。
我々の回帰分析によると、クエリの頻度が高く、クエリ類似性のエントロピーが高く、ドキュメント類似性のエントロピーが低いクエリは、ログ拡張の恩恵を受ける傾向にある。
関連論文リスト
- AdaComp: Extractive Context Compression with Adaptive Predictor for Retrieval-Augmented Large Language Models [15.887617654762629]
ノイズを含む検索された文書は、RAGが答えの手がかりを検知するのを妨げ、推論プロセスを遅く、高価にする。
本稿では,クエリの複雑さと検索品質の両面から圧縮率を適応的に決定する,低コストな抽出文脈圧縮手法であるAdaCompを紹介する。
論文 参考訳(メタデータ) (2024-09-03T03:25:59Z) - Optimizing Query Generation for Enhanced Document Retrieval in RAG [53.10369742545479]
大規模言語モデル(LLM)は様々な言語タスクに優れるが、しばしば誤った情報を生成する。
Retrieval-Augmented Generation (RAG) は、正確な応答に文書検索を使用することによってこれを緩和することを目的としている。
論文 参考訳(メタデータ) (2024-07-17T05:50:32Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。