論文の概要: Replication and Exploration of Generative Retrieval over Dynamic Corpora
- arxiv url: http://arxiv.org/abs/2504.17519v1
- Date: Thu, 24 Apr 2025 13:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.370164
- Title: Replication and Exploration of Generative Retrieval over Dynamic Corpora
- Title(参考訳): 動的コーパスによる生成検索の再現と探索
- Authors: Zhen Zhang, Xinyu Ma, Weiwei Sun, Pengjie Ren, Zhumin Chen, Shuaiqiang Wang, Dawei Yin, Maarten de Rijke, Zhaochun Ren,
- Abstract要約: 情報検索(IR)における有望なパラダイムとして生成検索(GR)が登場している。
既存のGRモデルと数値テキストに基づくドシデントは、未確認文書に対して優れた一般化を示す。
本稿では,数値ベースドクトの効率とテキストベースドクトの有効性を両立させる新しいマルチドクト設計を提案する。
- 参考スコア(独自算出の注目度): 87.09185685594105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative retrieval (GR) has emerged as a promising paradigm in information retrieval (IR). However, most existing GR models are developed and evaluated using a static document collection, and their performance in dynamic corpora where document collections evolve continuously is rarely studied. In this paper, we first reproduce and systematically evaluate various representative GR approaches over dynamic corpora. Through extensive experiments, we reveal that existing GR models with \textit{text-based} docids show superior generalization to unseen documents. We observe that the more fine-grained the docid design in the GR model, the better its performance over dynamic corpora, surpassing BM25 and even being comparable to dense retrieval methods. While GR models with \textit{numeric-based} docids show high efficiency, their performance drops significantly over dynamic corpora. Furthermore, our experiments find that the underperformance of numeric-based docids is partly due to their excessive tendency toward the initial document set, which likely results from overfitting on the training set. We then conduct an in-depth analysis of the best-performing GR methods. We identify three critical advantages of text-based docids in dynamic corpora: (i) Semantic alignment with language models' pretrained knowledge, (ii) Fine-grained docid design, and (iii) High lexical diversity. Building on these insights, we finally propose a novel multi-docid design that leverages both the efficiency of numeric-based docids and the effectiveness of text-based docids, achieving improved performance in dynamic corpus without requiring additional retraining. Our work offers empirical evidence for advancing GR methods over dynamic corpora and paves the way for developing more generalized yet efficient GR models in real-world search engines.
- Abstract(参考訳): 生成的検索(GR)は情報検索(IR)において有望なパラダイムとして浮上している。
しかし,既存のGRモデルの多くは静的な文書コレクションを用いて開発・評価されており,文書コレクションが継続的に進化する動的コーパスにおける性能についてはほとんど研究されていない。
本稿では,まず動的コーパス上での様々な代表的GRアプローチを再現し,体系的に評価する。
広範にわたる実験により,既存の GR モデルと \textit{text-based} ドクシッドが,未確認文書に対して優れた一般化を示すことが明らかとなった。
GRモデルにおけるドシド設計がよりきめ細かいほど、動的コーパスよりも性能が良くなり、BM25を超越し、密度の高い検索手法に匹敵する結果が得られた。
GRモデルとtextit{numeric-based} は高い効率性を示すが、その性能は動的コーパスよりも著しく低下する。
さらに,本実験では,初期文書セットに対する過度な傾向が,トレーニングセットの過度な適合に起因している可能性が示唆された。
次に,最高性能のGR法を詳細に解析する。
動的コーパスにおけるテキストベースドクトの3つの重要な利点を同定する。
一 言語モデルの事前学習知識とのセマンティックな整合性
二 きめ細かなドシドデザイン、及び
三 語彙の多様性が高いこと。
これらの知見に基づいて,数値ベースドクトの効率とテキストベースドクトの有効性を両立させ,動的コーパスの性能向上を実現し,新たなマルチドクト設計を提案する。
我々の研究は、動的コーパス上でGR法を前進させる実証的な証拠を提供し、現実世界の検索エンジンにおいてより一般化されながら効率的なGRモデルを開発するための道を開く。
関連論文リスト
- Context-Guided Dynamic Retrieval for Improving Generation Quality in RAG Models [2.9687381456164004]
意味理解と知識スケジューリングの効率化を図るための状態認識型動的知識検索機構を提案する。
提案した構造は, GPT-4, GPT-4o, DeepSeek など,様々な大規模モデルで徹底的に評価されている。
このアプローチはまた、意味的あいまいさとマルチドキュメント融合を含むタスクにおいて、強い堅牢性と生成一貫性を示す。
論文 参考訳(メタデータ) (2025-04-28T02:50:45Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - Advancing Retrieval-Augmented Generation for Persian: Development of Language Models, Comprehensive Benchmarks, and Best Practices for Optimization [0.0]
本研究は,ペルシャ固有のモデルを導入することにより,検索と生成の精度を向上させることを目的とする。
3つのデータセット(一般知識(PQuad)、科学的に専門化されたテキスト、組織報告)を使用して、これらのモデルを評価した。
MatinaSRobertaは以前の埋め込みよりも優れており、データセット間のコンテキスト関連性と検索精度に優れていた。
論文 参考訳(メタデータ) (2025-01-08T22:16:40Z) - Think&Cite: Improving Attributed Text Generation with Self-Guided Tree Search and Progress Reward Modeling [63.98194996746229]
大型言語モデル(LLM)は幻覚を起こし、事実的に誤った情報を生み出す傾向にある。
我々はThink&Citeと呼ばれる新しいフレームワークを提案し、検索と統合された多段階推論問題として属性付きテキスト生成を定式化する。
論文 参考訳(メタデータ) (2024-12-19T13:55:48Z) - Loops On Retrieval Augmented Generation (LoRAG) [0.0]
Loops On Retrieval Augmented Generation (LoRAG)は、検索強化テキスト生成の品質を高めるために設計された新しいフレームワークである。
アーキテクチャは、生成モデル、検索機構、動的ループモジュールを統合する。
LoRAGはBLEUスコア、ROUGEスコア、パープレキシティの点で既存の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-03-18T15:19:17Z) - Assessing generalization capability of text ranking models in Polish [0.0]
Retrieval-augmented Generation (RAG) は、内部知識ベースと大規模言語モデルを統合する技術として、ますます人気が高まっている。
本稿では,ポーランド語におけるリランク問題に着目し,リランカーの性能について検討する。
私たちのモデルの中で最高のものは、ポーランド語で再ランク付けするための新しい最先端技術を確立し、最大30倍のパラメータを持つ既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-02-22T06:21:41Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。