Fugu-MT 論文翻訳(概要): Hierarchical corpus encoder: Fusing generative retrieval and dense indices

論文の概要: Hierarchical corpus encoder: Fusing generative retrieval and dense indices

arxiv url: http://arxiv.org/abs/2502.18877v1
Date: Wed, 26 Feb 2025 06:43:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-27 15:24:46.409812
Title: Hierarchical corpus encoder: Fusing generative retrieval and dense indices
Title（参考訳）: 階層型コーパスエンコーダ--生成的検索と密度指標を融合させる
Authors: Tongfei Chen, Ankita Sharma, Adam Pauls, Benjamin Van Durme,
Abstract要約: 生成検索は、クエリに基づいた文書IDの条件付き生成にシーケンスモデルを用いる。これにより、ゼロショット検索のパフォーマンスが向上したが、トレーニング中に見えないドキュメントをサポートすることは困難である。本稿では,階層型コーパスエンコーダ(HCE)を提案する。
参考スコア（独自算出の注目度）: 39.56098961341313
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generative retrieval employs sequence models for conditional generation of document IDs based on a query (DSI (Tay et al., 2022); NCI (Wang et al., 2022); inter alia). While this has led to improved performance in zero-shot retrieval, it is a challenge to support documents not seen during training. We identify the performance of generative retrieval lies in contrastive training between sibling nodes in a document hierarchy. This motivates our proposal, the hierarchical corpus encoder (HCE), which can be supported by traditional dense encoders. Our experiments show that HCE achieves superior results than generative retrieval models under both unsupervised zero-shot and supervised settings, while also allowing the easy addition and removal of documents to the index.
Abstract（参考訳）: 生成検索は、クエリ(DSI(Tay et al , 2022)、NCI(Wang et al , 2022)に基づく文書IDの条件生成にシーケンスモデルを用いる。これにより、ゼロショット検索のパフォーマンスが向上したが、トレーニング中に見えないドキュメントをサポートすることは困難である。文書階層内の兄弟ノード間のコントラスト学習における生成的検索の性能を同定する。これにより,階層型コーパスエンコーダ (HCE) が提案される。実験の結果,HCEは教師なしゼロショットと教師なし設定の両方で生成検索モデルよりも優れた結果が得られる一方で,インデックスへの文書の追加や削除も容易であることがわかった。

関連論文リスト

DiffuGR: Generative Document Retrieval with Diffusion Language Models [80.78126312115087]
本稿ではDiffuGRと呼ばれる拡散言語モデルを用いた生成文書検索を提案する。推論のために、DiffuGRはDocIDトークンを並列に生成し、制御可能な多数のデノナイジングステップを通じてそれを洗練しようと試みている。従来の左から右への自動回帰デコーディングとは対照的に、DiffuGRはより信頼性の高いDocIDトークンを生成するための新しいメカニズムを提供する。
論文参考訳（メタデータ） (2025-11-11T12:00:09Z)
Generative Retrieval with Few-shot Indexing [32.19543023080197]
トレーニングベースの索引付けには3つの制限がある。高いトレーニングオーバーヘッド、大規模言語モデルのトレーニング済み知識の未使用、動的ドキュメントコーパスへの適応の課題である。 Few-Shot GR は訓練を必要とせず LLM の推進にのみ依存しており、より効率的である。実験により、Few-Shot GRは、重い訓練を必要とする最先端のGR法よりも優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-08-04T22:00:34Z)
Bootstrapped Pre-training with Dynamic Identifier Prediction for Generative Retrieval [108.9772640854136]
生成検索は、クエリに応答して関連するドキュメント識別子を直接生成するために、識別可能な検索インデックスを使用する。近年の研究では、微調整による下流検索タスクを強化するために、慎重に訓練された事前学習タスクで訓練された強力な生成検索モデルの可能性を強調している。生成検索のためのブートストラップ付き事前学習手法であるBootRetを導入し,事前学習中に文書識別子を動的に調整し,コーパスの継続に対応する。
論文参考訳（メタデータ） (2024-07-16T08:42:36Z)
Planning Ahead in Generative Retrieval: Guiding Autoregressive Generation through Simultaneous Decoding [23.061797784952855]
本稿では,文書識別子の自動生成を支援する新しい最適化および復号化手法であるPAGを紹介する。 MSMARCO と TREC Deep Learning Track のデータによる実験の結果,PAG は最先端の生成的検索モデルよりも大きなマージンで優れていることがわかった。
論文参考訳（メタデータ） (2024-04-22T21:50:01Z)
Generative Retrieval as Multi-Vector Dense Retrieval [71.75503049199897]
生成検索は、文書の識別子をエンドツーエンドで生成する。それまでの研究は、原子識別子による生成的検索が単一ベクトル密度検索と等価であることを示した。生成的検索と多ベクトル高密度検索は,文書の問合せに対する関連性を測定するのと同じ枠組みを共有していることを示す。
論文参考訳（メタデータ） (2024-03-31T13:29:43Z)
CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文参考訳（メタデータ） (2024-02-02T06:44:22Z)
Generation-Augmented Query Expansion For Code Retrieval [51.20943646688115]
本稿では,次世代のクエリ拡張フレームワークを提案する。人間の検索プロセスにインスパイアされた – 検索前に回答をスケッチする。 CodeSearchNetベンチマークで、最先端の新たな結果を得る。
論文参考訳（メタデータ） (2022-12-20T23:49:37Z)
Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文参考訳（メタデータ） (2022-12-20T18:09:52Z)
DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文参考訳（メタデータ） (2022-12-19T18:59:34Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Improving Document Representations by Generating Pseudo Query Embeddings for Dense Retrieval [11.465218502487959]
反復的なクラスタリングプロセスにより,各文書のクエリを模倣する手法を設計する。また、2段階のスコア計算手順でマッチング関数を最適化する。いくつかの人気ランキングとQAデータセットに関する実験結果から、私たちのモデルが最先端の結果を達成できることが示された。
論文参考訳（メタデータ） (2021-05-08T05:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。