論文の概要: Are We There Yet? A Decision Framework for Replacing Term Based
Retrieval with Dense Retrieval Systems
- arxiv url: http://arxiv.org/abs/2206.12993v1
- Date: Sun, 26 Jun 2022 23:16:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:35:03.343019
- Title: Are We There Yet? A Decision Framework for Replacing Term Based
Retrieval with Dense Retrieval Systems
- Title(参考訳): まだいるのか?
Dense Retrieval システムを用いた項ベース検索のための決定フレームワーク
- Authors: Sebastian Hofst\"atter, Nick Craswell, Bhaskar Mitra, Hamed Zamani,
Allan Hanbury
- Abstract要約: いくつかの高密度検索(DR)モデルは、項ベース検索と競合する性能を示した。
DRはクエリとドキュメントを高密度なベクトル空間に投影し、(近似した)近接探索によって結果を検索する。
将来DRがユビキタスになるかどうかを予測することは不可能だが、この方法の1つは意思決定プロセスの繰り返し適用を通じて可能である。
- 参考スコア(独自算出の注目度): 35.77217529138364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several dense retrieval (DR) models have demonstrated competitive
performance to term-based retrieval that are ubiquitous in search systems. In
contrast to term-based matching, DR projects queries and documents into a dense
vector space and retrieves results via (approximate) nearest neighbor search.
Deploying a new system, such as DR, inevitably involves tradeoffs in aspects of
its performance. Established retrieval systems running at scale are usually
well understood in terms of effectiveness and costs, such as query latency,
indexing throughput, or storage requirements. In this work, we propose a
framework with a set of criteria that go beyond simple effectiveness measures
to thoroughly compare two retrieval systems with the explicit goal of assessing
the readiness of one system to replace the other. This includes careful
tradeoff considerations between effectiveness and various cost factors.
Furthermore, we describe guardrail criteria, since even a system that is better
on average may have systematic failures on a minority of queries. The
guardrails check for failures on certain query characteristics and novel
failure types that are only possible in dense retrieval systems. We demonstrate
our decision framework on a Web ranking scenario. In that scenario,
state-of-the-art DR models have surprisingly strong results, not only on
average performance but passing an extensive set of guardrail tests, showing
robustness on different query characteristics, lexical matching,
generalization, and number of regressions. It is impossible to predict whether
DR will become ubiquitous in the future, but one way this is possible is
through repeated applications of decision processes such as the one presented
here.
- Abstract(参考訳): 近年,いくつかの高密度検索(DR)モデルが,検索システムにおいてユビキタスな項ベース検索と競合する性能を示した。
用語ベースのマッチングとは対照的に、drはクエリとドキュメントを密集したベクトル空間に投影し、(ほぼ)近い近傍探索を通じて結果を取得する。
DRのような新しいシステムのデプロイには、パフォーマンス面でのトレードオフが必然的に伴います。
大規模な検索システムは、クエリ待ち時間、インデックス処理のスループット、ストレージ要求など、有効性とコストの観点からよく理解されている。
本研究では,2つの検索システムと,一方のシステムの可読性を評価し,他方のシステムを置き換えることの明確な目標を徹底的に比較するための,単純な有効性尺度を超える一連の基準を持つフレームワークを提案する。
これには、有効性と様々なコスト要因の間の慎重なトレードオフの考慮が含まれる。
さらに,平均的に優れたシステムであっても,少数のクエリで系統的障害が発生する可能性があるため,ガードレールの基準についても述べる。
guardrailsは、特定のクエリ特性の障害と、高密度検索システムでのみ可能な新しい障害タイプをチェックする。
我々はWebランキングのシナリオで意思決定の枠組みを実証する。
このシナリオでは、最先端のdrモデルには驚くほど強力な結果があり、平均的なパフォーマンスだけでなく、さまざまなクエリ特性、語彙マッチング、一般化、回帰数に対する堅牢性を示すガードレールテストのセットをパスする。
将来DRがユビキタスになるかどうかを予測することは不可能だが、この方法の1つは、ここで提示されるような意思決定プロセスの繰り返し適用を通じて可能である。
関連論文リスト
- On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Towards More Robust NLP System Evaluation: Handling Missing Scores in
Benchmarks [9.404931130084803]
本稿は,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化する。
既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-17T15:20:31Z) - tieval: An Evaluation Framework for Temporal Information Extraction
Systems [2.3035364984111495]
過去20年間、時間的情報抽出は大きな関心を集めてきた。
大量のコーパスにアクセスすることは、TIEシステムのベンチマークに関して難しい。
tievalはPythonライブラリで、異なるコーパスをインポートするための簡潔なインターフェースを提供し、システム評価を容易にする。
論文 参考訳(メタデータ) (2023-01-11T18:55:22Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Large-Scale Sequential Learning for Recommender and Engineering Systems [91.3755431537592]
本稿では,現在の状況に適応してパーソナライズされたランキングを提供する自動アルゴリズムの設計に焦点を当てる。
前者はSAROSと呼ばれる新しいアルゴリズムを提案し,インタラクションの順序を学習するためのフィードバックの種類を考慮に入れている。
提案手法は, 電力網の故障検出に対する初期アプローチと比較して, 統計的に有意な結果を示す。
論文 参考訳(メタデータ) (2022-05-13T21:09:41Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。
社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。
本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文 参考訳(メタデータ) (2022-02-08T11:44:20Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - A Convolutional Baseline for Person Re-Identification Using Vision and
Language Descriptions [24.794592610444514]
現実世界の監視シナリオでは、クエリされた人に関する視覚的な情報は頻繁に提供されない。
クロスエントロピー損失によって制御される2つのストリームディープ畳み込みニューラルネットワークフレームワークを示す。
学習した視覚表現は、単一のモダリティシステムと比較して、より堅牢で、検索時に22%向上する。
論文 参考訳(メタデータ) (2020-02-20T10:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。