論文の概要: Extending Dense Passage Retrieval with Temporal Information
- arxiv url: http://arxiv.org/abs/2502.21024v1
- Date: Fri, 28 Feb 2025 13:06:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 16:38:45.893266
- Title: Extending Dense Passage Retrieval with Temporal Information
- Title(参考訳): 時間情報を用いた拡張Dense Passage Retrieval
- Authors: Abdelrahman Abdallah, Bhawna Piryani, Jonas Wallat, Avishek Anand, Adam Jatowt,
- Abstract要約: 本稿では、クエリタイムスタンプと文書日付を表現空間に組み込むことにより、明示的な時間的信号を統合する時間的検索モデルを提案する。
提案手法は,検索されたパスがトポロジに関連しているだけでなく,時間的にユーザの意図に適合していることを保証する。
大規模ベンチマークデータセットであるArchivealQAとCentrallingAmericaQAについて検討した。
- 参考スコア(独自算出の注目度): 18.87473448633352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal awareness is crucial in many information retrieval tasks, particularly in scenarios where the relevance of documents depends on their alignment with the query's temporal context. Traditional retrieval methods such as BM25 and Dense Passage Retrieval (DPR) excel at capturing lexical and semantic relevance but fall short in addressing time-sensitive queries. To bridge this gap, we introduce the temporal retrieval model that integrates explicit temporal signals by incorporating query timestamps and document dates into the representation space. Our approach ensures that retrieved passages are not only topically relevant but also temporally aligned with user intent. We evaluate our approach on two large-scale benchmark datasets, ArchivalQA and ChroniclingAmericaQA, achieving substantial performance gains over standard retrieval baselines. In particular, our model improves Top-1 retrieval accuracy by 6.63% and NDCG@10 by 3.79% on ArchivalQA, while yielding a 9.56% boost in Top-1 retrieval accuracy and 4.68% in NDCG@10 on ChroniclingAmericaQA. Additionally, we introduce a time-sensitive negative sampling strategy, which refines the model's ability to distinguish between temporally relevant and irrelevant documents during training. Our findings highlight the importance of explicitly modeling time in retrieval systems and set a new standard for handling temporally grounded queries.
- Abstract(参考訳): 時間的認識は多くの情報検索タスクにおいて重要であり、特にドキュメントの関連性がクエリの時間的コンテキストとの整合性に依存する場合において重要である。
BM25 や Dense Passage Retrieval (DPR) のような従来の検索手法は、語彙や意味的関連性を捉えるのに優れているが、時間に敏感なクエリに対処するには不十分である。
このギャップを埋めるために、クエリタイムスタンプと文書日付を表現空間に組み込むことにより、明示的な時間的信号を統合する時間的検索モデルを導入する。
提案手法は,検索されたパスがトポロジに関連しているだけでなく,時間的にユーザの意図に適合していることを保証する。
提案手法をArchivealQAとCentrallingAmericaQAの2つの大規模ベンチマークデータセットで評価し,標準検索ベースラインよりも大幅な性能向上を実現した。
特に,本モデルではTop-1検索精度を6.63%,NDCG@10を3.79%改善し,Top-1検索精度は9.56%,NDCG@10は4.68%向上した。
さらに,時間に敏感なネガティブサンプリング戦略を導入し,トレーニング中に時間的関連性のある文書と無関係な文書を区別するモデルを改良する。
本研究は,検索システムにおける時間を明確にモデル化することの重要性を強調し,時間的グラウンドドクエリを扱うための新しい標準を設定した。
関連論文リスト
- Efficient Conversational Search via Topical Locality in Dense Retrieval [9.38751103209178]
我々は、応答時間を改善するために、会話クエリに固有のトピックの局所性を利用する。
クエリの埋め込み類似性を活用することで,検索空間を意味的に関連するドキュメントクラスタに動的に制限する。
その結果,提案システムは複雑なマルチターンクエリを高い精度と効率で効果的に処理できることが示唆された。
論文 参考訳(メタデータ) (2025-04-30T10:56:34Z) - From Retrieval to Generation: Comparing Different Approaches [15.31883349259767]
我々は,知識集約型タスクに対する検索ベース,生成ベース,ハイブリッドモデルの評価を行った。
我々は、高密度レトリバー、特にDPRは、NQ上でトップ1の精度が50.17%のODQAにおいて高い性能を発揮することを示す。
また、WikiText-103を用いて言語モデリングタスクを解析し、BM25のような検索に基づくアプローチは、生成的手法やハイブリッド手法に比べて難易度が低いことを示す。
論文 参考訳(メタデータ) (2025-02-27T16:29:14Z) - Efficient Long Context Language Model Retrieval with Compression [57.09163579304332]
情報検索のための新しいパラダイムとしてLong Context Language Models (LCLM)が登場した。
本稿では,LCLM検索に適した新しい圧縮手法を提案する。
また,CoLoRはテキスト内サイズを1.91倍に圧縮し,検索性能を6%向上することを示した。
論文 参考訳(メタデータ) (2024-12-24T07:30:55Z) - MRAG: A Modular Retrieval Framework for Time-Sensitive Question Answering [3.117448929160824]
大規模言語モデル(LLM)を用いた質問応答システムにおいて,時間的関係と応答時間に敏感な質問
我々は、時間的摂動と金のエビデンスラベルを組み込むことで、既存のデータセットを再利用するTempRAGEvalベンチマークを導入する。
TempRAGEvalでは、MRAGが検索性能においてベースラインレトリバーを著しく上回り、最終回答精度がさらに向上した。
論文 参考訳(メタデータ) (2024-12-20T03:58:27Z) - ECLIPSE: Contrastive Dimension Importance Estimation with Pseudo-Irrelevance Feedback for Dense Retrieval [14.72046677914345]
近年のInformation Retrievalは、高次元埋め込み空間を活用して、関連文書の検索を改善している。
これらの高次元表現にもかかわらず、クエリに関連する文書は、低次元のクエリ依存多様体に存在する。
本稿では,関連文書と非関連文書の両方からの情報を活用することによって,これらの制約に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T15:45:06Z) - Quam: Adaptive Retrieval through Query Affinity Modelling [15.3583908068962]
ユーザ情報要求に基づいて文書をランク付けする関連モデルを構築することは,情報検索とNLPコミュニティの中心的な課題である。
提案するQuamにより,適応検索の初期段階の統一的な視点を提案する。
提案手法であるQuamは,リコール性能を26%向上させる。
論文 参考訳(メタデータ) (2024-10-26T22:52:12Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval [25.402767809863946]
逆ファイル構造は高密度検索を高速化する一般的な手法である。
本研究では,Hybrid Inverted Index (HI$2$)を提案する。
論文 参考訳(メタデータ) (2022-10-11T15:12:41Z) - A Benchmark for Generalizable and Interpretable Temporal Question
Answering over Knowledge Bases [67.33560134350427]
TempQA-WDは時間的推論のためのベンチマークデータセットである。
Wikidataは、最も頻繁にキュレーションされ、公開されている知識ベースである。
論文 参考訳(メタデータ) (2022-01-15T08:49:09Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Query Resolution for Conversational Search with Limited Supervision [63.131221660019776]
本稿では,双方向トランスフォーマに基づくニューラルクエリ解決モデルQuReTeCを提案する。
我々はQuReTeCが最先端モデルより優れており、また、QuReTeCのトレーニングに必要な人為的なデータ量を大幅に削減するために、我々の遠隔監視手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-05-24T11:37:22Z) - A Study on Efficiency, Accuracy and Document Structure for Answer
Sentence Selection [112.0514737686492]
本稿では,単語関連エンコーダとともに,原語階の内在的構造を活用すれば,競争的な結果が得られることを論じる。
私たちのモデルはWikiQAデータセットでトレーニングするのに9.5秒かかります。
論文 参考訳(メタデータ) (2020-03-04T22:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。