論文の概要: Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking
- arxiv url: http://arxiv.org/abs/2502.12974v2
- Date: Sat, 04 Oct 2025 10:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:09.36807
- Title: Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking
- Title(参考訳): ディリベレート思考によるDense Retrievalのための文書表現の書き直し学習
- Authors: Yifan Ji, Zhipeng Xu, Zhenghao Liu, Yukun Yan, Shi Yu, Yishan Li, Zhiyuan Liu, Yu Gu, Ge Yu, Maosong Sun,
- Abstract要約: Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 58.69615583599489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent dense retrievers increasingly leverage the robust text understanding capabilities of Large Language Models (LLMs), encoding queries and documents into a shared embedding space for effective retrieval. However, most existing methods represent each document with a single embedding, which is less effective at capturing its multifaceted semantics and thereby limits matching accuracy. In this paper, we propose Deliberate Thinking based Dense Retriever (Debater), a novel approach that enhances document representations by incorporating a step-by-step thinking process. Debater introduces a Chain-of-Deliberation mechanism, which iteratively refines document embeddings through a continuous chain-of-thought. To integrate information from various thinking steps, Debater further employs a Self Distillation mechanism that identifies and fuses the most informative steps into a unified embedding. Experimental results show that Debater significantly outperforms existing methods across several retrieval benchmarks, demonstrating superior accuracy and robustness. All codes and datasets are available at https://github.com/OpenBMB/DEBATER.
- Abstract(参考訳): 近年の高密度検索では,Large Language Models (LLMs) の頑健なテキスト理解機能を活用し,クエリやドキュメントを共有埋め込み空間にエンコードして効率的な検索を行うようになっている。
しかし、既存のほとんどのメソッドは、それぞれのドキュメントを単一の埋め込みで表現するが、それは、その多面的セマンティクスのキャプチャがより効果的で、その結果、マッチングの精度が制限される。
本稿では,段階的思考プロセスを導入して文書表現を強化する新しい手法であるDense Retriever(Debater)を提案する。
Debater氏は継続的チェーン・オブ・思想を通じて文書の埋め込みを反復的に洗練するChain-of-Deliberationメカニズムを紹介している。
さまざまな思考ステップからの情報を統合するために、Debater氏はさらに、最も情報性の高いステップを特定し、統合された埋め込みに融合するセルフ蒸留メカニズムを採用している。
実験の結果、Debaterはいくつかのベンチマークで既存の手法よりも優れており、精度とロバスト性が優れていることがわかった。
すべてのコードとデータセットはhttps://github.com/OpenBMB/DEBATERで公開されている。
関連論文リスト
- A Unified Retrieval Framework with Document Ranking and EDU Filtering for Multi-document Summarization [18.13855430873805]
現在の手法では、検索プロセスの後にトランケーションを適用してコンテキスト長に適合させる。
本稿では,クエリ選択と文書ランキングを統合した検索に基づく新しいフレームワークを提案する。
我々は、複数のMDSデータセット上でのフレームワークを評価し、ROUGEメトリクスの一貫した改善を実証した。
論文 参考訳(メタデータ) (2025-04-23T13:41:10Z) - PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。
検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文 参考訳(メタデータ) (2024-04-29T04:51:30Z) - Lexically-Accelerated Dense Retrieval [29.327878974130055]
LADR (Lexically-Accelerated Dense Retrieval) は, 既存の高密度検索モデルの効率を向上する, 簡便な手法である。
LADRは、標準ベンチマークでの徹底的な検索と同等の精度とリコールの両方を一貫して達成する。
論文 参考訳(メタデータ) (2023-07-31T15:44:26Z) - Query2doc: Query Expansion with Large Language Models [69.9707552694766]
提案手法はまず,大言語モデル (LLM) をプロンプトすることで擬似文書を生成する。
query2docは、アドホックIRデータセットでBM25のパフォーマンスを3%から15%向上させる。
また,本手法は,ドメイン内およびドメイン外の両方において,最先端の高密度検索に有効である。
論文 参考訳(メタデータ) (2023-03-14T07:27:30Z) - Natural Logic-guided Autoregressive Multi-hop Document Retrieval for
Fact Verification [21.04611844009438]
マルチホップ検索のための新しい検索・参照手法を提案する。
知識ソース内の文書と、以前検索された文書から文を共同でスコアする検索器で構成されている。
証拠が十分であると判断された場合、検索プロセスを動的に終了する証明システムによってガイドされる。
論文 参考訳(メタデータ) (2022-12-10T11:32:38Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - CODER: An efficient framework for improving retrieval through
COntextualized Document Embedding Reranking [11.635294568328625]
本稿では,最小計算コストで広範囲の検索モデルの性能を向上させるためのフレームワークを提案する。
ベース密度検索法により抽出された事前計算された文書表現を利用する。
実行時に第一段階のメソッドの上に無視可能な計算オーバーヘッドを発生させ、最先端の高密度検索手法と簡単に組み合わせられるようにする。
論文 参考訳(メタデータ) (2021-12-16T10:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。