論文の概要: ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval
- arxiv url: http://arxiv.org/abs/2510.10419v1
- Date: Sun, 12 Oct 2025 03:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.931288
- Title: ZeroGR: A Generalizable and Scalable Framework for Zero-Shot Generative Retrieval
- Title(参考訳): ZeroGR: ゼロショット生成検索のための汎用的でスケーラブルなフレームワーク
- Authors: Weiwei Sun, Keyi Kong, Xinyu Ma, Shuaiqiang Wang, Dawei Yin, Maarten de Rijke, Zhaochun Ren, Yiming Yang,
- Abstract要約: 生成検索(GR)は、情報検索(IR)を文書識別子(ドシデント)の生成としてフレーミングすることによって再構成する
我々は、自然言語命令を利用して幅広いIRタスクにわたってGRを拡張するゼロショット生成検索フレームワークであるtextscZeroGRを提案する。
具体的には、textscZeroGRは、3つのキーコンポーネントで構成されている: (i)不均一な文書を意味的に意味のあるドシデントに統一するLMベースのドシデントジェネレータ; (ii)自然言語タスク記述から様々なタイプのクエリを生成し、拡張する命令チューニングクエリジェネレータ。
- 参考スコア(独自算出の注目度): 125.19156877994612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative retrieval (GR) reformulates information retrieval (IR) by framing it as the generation of document identifiers (docids), thereby enabling an end-to-end optimization and seamless integration with generative language models (LMs). Despite notable progress under supervised training, GR still struggles to generalize to zero-shot IR scenarios, which are prevalent in real-world applications. To tackle this challenge, we propose \textsc{ZeroGR}, a zero-shot generative retrieval framework that leverages natural language instructions to extend GR across a wide range of IR tasks. Specifically, \textsc{ZeroGR} is composed of three key components: (i) an LM-based docid generator that unifies heterogeneous documents (e.g., text, tables, code) into semantically meaningful docids; (ii) an instruction-tuned query generator that generates diverse types of queries from natural language task descriptions to enhance corpus indexing; and (iii) a reverse annealing decoding strategy to balance precision and recall during docid generation. We investigate the impact of instruction fine-tuning scale and find that performance consistently improves as the number of IR tasks encountered during training increases. Empirical results on the BEIR and MAIR benchmarks demonstrate that \textsc{ZeroGR} outperforms strong dense retrieval and generative baselines in zero-shot settings, establishing a new state-of-the-art for instruction-driven GR.
- Abstract(参考訳): 生成検索(GR)は、情報検索(IR)を文書識別子(Docids)の生成としてフレーミングすることにより、エンドツーエンドの最適化と生成言語モデル(LMs)とのシームレスな統合を可能にする。
教師付きトレーニング下での顕著な進歩にもかかわらず、GRは現実世界のアプリケーションで広く使われているゼロショットIRシナリオへの一般化に苦慮している。
この課題に対処するために,自然言語命令を活用して広範囲のIRタスクにわたってGRを拡張するゼロショット生成検索フレームワークである \textsc{ZeroGR} を提案する。
具体的には、 \textsc{ZeroGR} は3つのキーコンポーネントから構成される。
(i)不均一な文書(例えば、テキスト、表、コード)を意味的に意味のある決定に統一するLMベースのドシドジェネレータ
(ii)コーパスインデクシングを強化するために自然言語タスク記述から多種多様なクエリを生成する命令調整クエリジェネレータ
三 ドシデント発生時の精度及びリコールのバランスをとるための逆アニール復号方式
教示微調整尺度の影響について検討し、トレーニング中に発生する赤外線タスクの数が増加するにつれて、性能が継続的に向上することを示した。
BEIR と MAIR のベンチマークによる実験結果から、‘textsc{ZeroGR} はゼロショット設定で強い高密度検索と生成ベースラインより優れており、命令駆動GR のための新しい最先端技術を確立している。
関連論文リスト
- Replication and Exploration of Generative Retrieval over Dynamic Corpora [87.09185685594105]
情報検索(IR)における有望なパラダイムとして生成検索(GR)が登場している。
既存のGRモデルと数値テキストに基づくドシデントは、未確認文書に対して優れた一般化を示す。
本稿では,数値ベースドクトの効率とテキストベースドクトの有効性を両立させる新しいマルチドクト設計を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:01:23Z) - SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。
まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。
次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文 参考訳(メタデータ) (2025-04-17T17:59:27Z) - IRSC: A Zero-shot Evaluation Benchmark for Information Retrieval through Semantic Comprehension in Retrieval-Augmented Generation Scenarios [14.336896748878921]
本稿では,多言語RAGタスクにおける埋め込みモデルの性能評価のためのIRSCベンチマークを提案する。
このベンチマークには、クエリ検索、タイトル検索、パラグラフ検索、キーワード検索、要約検索の5つのタスクが含まれている。
1)IRSCベンチマーク,2)SSCIとRCCIメトリクス,3)埋め込みモデルの言語間制限に関する洞察などです。
論文 参考訳(メタデータ) (2024-09-24T05:39:53Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - Generative Retrieval with Few-shot Indexing [32.19543023080197]
トレーニングベースの索引付けには3つの制限がある。高いトレーニングオーバーヘッド、大規模言語モデルのトレーニング済み知識の未使用、動的ドキュメントコーパスへの適応の課題である。
Few-Shot GR は訓練を必要とせず LLM の推進にのみ依存しており、より効率的である。
実験により、Few-Shot GRは、重い訓練を必要とする最先端のGR法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-04T22:00:34Z) - Distillation Enhanced Generative Retrieval [96.69326099136289]
生成的検索はテキスト検索において有望な新しいパラダイムであり、関連する通路の識別子文字列を検索対象として生成する。
本研究は, 蒸留による生成的検索をさらに促進するための有効な方向を特定し, DGR という名称の実行可能なフレームワークを提案する。
本研究では,4つの公開データセットに対して実験を行い,DGRが生成的検索手法の最先端性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-16T15:48:24Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。