論文の概要: Improving Document Retrieval Coherence for Semantically Equivalent Queries
- arxiv url: http://arxiv.org/abs/2508.07975v1
- Date: Mon, 11 Aug 2025 13:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.116767
- Title: Improving Document Retrieval Coherence for Semantically Equivalent Queries
- Title(参考訳): 意味的に等価なクエリのための文書検索コヒーレンスの改善
- Authors: Stefano Campese, Alessandro Moschitti, Ivano Lauriola,
- Abstract要約: 同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
- 参考スコア(独自算出の注目度): 63.97649988164166
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Dense Retrieval (DR) models have proven to be effective for Document Retrieval and Information Grounding tasks. Usually, these models are trained and optimized for improving the relevance of top-ranked documents for a given query. Previous work has shown that popular DR models are sensitive to the query and document lexicon: small variations of it may lead to a significant difference in the set of retrieved documents. In this paper, we propose a variation of the Multi-Negative Ranking loss for training DR that improves the coherence of models in retrieving the same documents with respect to semantically similar queries. The loss penalizes discrepancies between the top-k ranked documents retrieved for diverse but semantic equivalent queries. We conducted extensive experiments on various datasets, MS-MARCO, Natural Questions, BEIR, and TREC DL 19/20. The results show that (i) models optimizes by our loss are subject to lower sensitivity, and, (ii) interestingly, higher accuracy.
- Abstract(参考訳): Dense Retrieval(DR)モデルは、ドキュメント検索および情報グラウンドタスクに有効であることが証明されている。
通常、これらのモデルは、与えられたクエリに対する上位のドキュメントの関連性を改善するためにトレーニングされ、最適化されます。
これまでの研究では、一般的なDRモデルはクエリやドキュメントの語彙に敏感であることが示されていた。
本稿では,同じ文書を意味的に類似したクエリに対して検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
各種データセット,MS-MARCO,Natural Questions,BEIR,TREC DL 19/20について広範な実験を行った。
その結果は
一 損失により最適化されたモデルは、感度が低く、かつ、
(II) 興味深いことに精度が高い。
関連論文リスト
- Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence [56.09494651178128]
検索モデルは、Retrieval-Augmented Generation (RAG)のような情報検索(IR)アプリケーションで一般的に使用される。
我々は、Dragon+やContrieverのようなリトリーバーに対する、短いドキュメントの好みなどのバイアスの影響を定量化する。
私たちは大きな脆弱性を発見し、リトリバーが短いドキュメント、早い位置、繰り返しのエンティティ、リテラルマッチを好んで、答えの存在を無視しながら表示します。
論文 参考訳(メタデータ) (2025-03-06T23:23:13Z) - DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering [4.364937306005719]
RAGは最近、質問応答(QA)のような知識集約的なタスクにおいて、LLM(Large Language Models)のパフォーマンスを実証した。
重要な文書とクエリの間には関連性が低いものの,文書の一部とクエリを組み合わせることで,残りの文書を検索できることがわかった。
文書検索のリコールと回答の精度を向上させるために,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-11T15:15:33Z) - Soft Prompt Tuning for Augmenting Dense Retrieval with Large Language Models [29.735976068474105]
本稿では,拡張Dense検索(DR)モデルのためのソフトプロンプトチューニングを提案する。
各タスクに対して,限られた真実データに基づいて,タスク固有のソフトプロンプトを最適化するために,ソフトプロンプトチューニングを利用する。
我々は、弱いタグ付きクエリの品質をさらに向上させるために、高品質な文書クエリペアを選択するフィルタを設計する。
論文 参考訳(メタデータ) (2023-07-17T07:55:47Z) - LoL: A Comparative Regularization Loss over Query Reformulation Losses
for Pseudo-Relevance Feedback [70.44530794897861]
Pseudo-Relevance feedback (PRF) は、検索精度を向上させるための効果的なクエリ修正手法であることが証明されている。
既存のPRF手法は、同じクエリから派生した修正クエリを個別に扱うが、異なる数のフィードバックドキュメントを使用する。
そこで我々はLos-over-Loss(LoL)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-25T10:42:50Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。