論文の概要: Reproducible Hybrid Time-Travel Retrieval in Evolving Corpora
- arxiv url: http://arxiv.org/abs/2411.04051v1
- Date: Wed, 06 Nov 2024 16:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 19:50:56.701236
- Title: Reproducible Hybrid Time-Travel Retrieval in Evolving Corpora
- Title(参考訳): 進化コーパスにおける再現可能なハイブリッド時間トラック検索
- Authors: Moritz Staudinger, Florina Piroi, Andreas Rauber,
- Abstract要約: 本稿では,高速検索のためのLuceneと,バージョン付きおよびタイムスタンプ付きインデックスを維持する列ストア型検索システムを組み合わせたハイブリッド検索システムを提案する。
- 参考スコア(独自算出の注目度): 1.9202615342033464
- License:
- Abstract: There are settings in which reproducibility of ranked lists is desirable, such as when extracting a subset of an evolving document corpus for downstream research tasks or in domains such as patent retrieval or in medical systematic reviews, with high reproducibility expectations. However, as global term statistics change when documents change or are added to a corpus, queries using typical ranked retrieval models are not even reproducible for the parts of the document corpus that have not changed. Thus, Boolean retrieval frequently remains the mechanism of choice in such settings. We present a hybrid retrieval system combining Lucene for fast retrieval with a column-store-based retrieval system maintaining a versioned and time-stamped index. The latter component allows re-execution of previously posed queries resulting in the same ranked list and further allows for time-travel queries over evolving collection, as web archives, while maintaining the original ranking. Thus, retrieval results in evolving document collections are fully reproducible even when document collections and thus term statistics change.
- Abstract(参考訳): 下流の研究タスクや、特許検索や医学的体系的レビューなどの領域において、進化するドキュメントコーパスのサブセットを、再現性の高い期待で抽出する場合など、ランクリストの再現性が望ましい設定がある。
しかし、文書が変更されたり、コーパスに追加されたりすると、グローバルな用語統計が変わるため、典型的なランク付けされた検索モデルを用いたクエリは、変更されていない文書コーパスの一部に対して再現できない。
このように、ブール検索はしばしばそのような設定において選択のメカニズムを保っている。
本稿では,高速検索のためのLuceneと,バージョン付きおよびタイムスタンプ付きインデックスを維持する列ストア型検索システムを組み合わせたハイブリッド検索システムを提案する。
後者のコンポーネントは、以前提案されたクエリを再実行することで、同じランクリストとなり、また、元のランキングを維持しながら、Webアーカイブのような進化するコレクションよりもタイムトラバーなクエリを可能にする。
このように、文書収集における検索結果は、文書収集が変化しても完全に再現可能であり、したがって用語統計が変化する。
関連論文リスト
- Open-World Evaluation for Retrieving Diverse Perspectives [39.22331280176582]
主観的質問に対する検索多様性のベンチマーク(BERDS)を作成する。
それぞれの例は質問と、質問に関連するさまざまな視点で構成されている。
検索した文書に視点があるかどうかを判断する言語モデルに基づく自動評価器を構築する。
論文 参考訳(メタデータ) (2024-09-26T17:52:57Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。
それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。
生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文 参考訳(メタデータ) (2024-03-31T13:29:43Z) - Corrective Retrieval Augmented Generation [36.04062963574603]
Retrieval-augmented Generation (RAG) は、検索された文書の関連性に大きく依存しており、検索が失敗した場合のモデルがどのように振る舞うかについての懸念を提起する。
生成の堅牢性を改善するために,CRAG(Corrective Retrieval Augmented Generation)を提案する。
CRAGはプラグアンドプレイであり、様々なRAGベースのアプローチとシームレスに結合できる。
論文 参考訳(メタデータ) (2024-01-29T04:36:39Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Evaluating Generative Ad Hoc Information Retrieval [58.800799175084286]
生成検索システムは、しばしばクエリに対する応答として、接地された生成されたテキストを直接返す。
このような生成的アドホック検索を適切に評価するには,テキスト応答の有用性の定量化が不可欠である。
論文 参考訳(メタデータ) (2023-11-08T14:05:00Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Archive TimeLine Summarization (ATLS): Conceptual Framework for Timeline
Generation over Historical Document Collections [17.332692582748408]
本稿では,アーカイブコレクション上でのTimeLine Summarization(TLS)手法を拡張して研究を支援することを提案する。
本稿では,情報的,可読的,解釈可能なタイムラインを生成することを目的とした,アーカイブタイムライン要約(ATLS)システムの概念的フレームワークについて述べる。
論文 参考訳(メタデータ) (2023-01-31T08:58:47Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。