論文の概要: Model Editing for New Document Integration in Generative Information Retrieval
- arxiv url: http://arxiv.org/abs/2603.02773v1
- Date: Tue, 03 Mar 2026 09:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.726172
- Title: Model Editing for New Document Integration in Generative Information Retrieval
- Title(参考訳): 生成情報検索における新しい文書統合のためのモデル編集
- Authors: Zhen Zhang, Zihan Wang, Xinyu Ma, Shuaiqiang Wang, Dawei Yin, Xin Xin, Pengjie Ren, Maarten de Rijke, Zhaochun Ren,
- Abstract要約: 生成検索(GR)は文書識別子(docID)の生成として情報検索(IR)タスクを再構成する
既存のGRモデルは、新たに追加されたドキュメントへの一般化が不十分で、しばしば正しいドキュメントIDを生成できない。
DOMEは,GRモデルを非表示文書に効果的かつ効率的に適応する新しい手法である。
- 参考スコア(独自算出の注目度): 110.90609826290968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative retrieval (GR) reformulates the Information Retrieval (IR) task as the generation of document identifiers (docIDs). Despite its promise, existing GR models exhibit poor generalization to newly added documents, often failing to generate the correct docIDs. While incremental training offers a straightforward remedy, it is computationally expensive, resource-intensive, and prone to catastrophic forgetting, thereby limiting the scalability and practicality of GR. In this paper, we identify the core bottleneck as the decoder's ability to map hidden states to the correct docIDs of newly added documents. Model editing, which enables targeted parameter modifications for docID mapping, represents a promising solution. However, applying model editing to current GR models is not trivial, which is severely hindered by indistinguishable edit vectors across queries, due to the high overlap of shared docIDs in retrieval results. To address this, we propose DOME (docID-oriented model editing), a novel method that effectively and efficiently adapts GR models to unseen documents. DOME comprises three stages: (1) identification of critical layers, (2) optimization of edit vectors, and (3) construction and application of updates. At its core, DOME employs a hybrid-label adaptive training strategy that learns discriminative edit vectors by combining soft labels, which preserve query-specific semantics for distinguishable updates, with hard labels that enforce precise mapping modifications. Experiments on widely used benchmarks, including NQ and MS MARCO, show that our method significantly improves retrieval performance on new documents while maintaining effectiveness on the original collection. Moreover, DOME achieves this with only about 60% of the training time required by incremental training, considerably reducing computational cost and enabling efficient, frequent model updates.
- Abstract(参考訳): 生成検索(GR)は、情報検索(IR)タスクを文書識別子(docID)の生成として再構成する。
その約束にもかかわらず、既存のGRモデルは新たに追加されたドキュメントへの一般化が不十分であり、しばしば正しいドキュメントIDを生成できない。
インクリメンタルトレーニングは直接的な治療法を提供するが、計算コストが高く、リソース集約的で、破滅的な忘れがちであるため、GRのスケーラビリティと実用性が制限される。
本稿では,新たに追加された文書のドクIDに隠れた状態をマッピングするデコーダの機能として,コアボトルネックを同定する。
docIDマッピングのターゲットパラメータ修正を可能にするモデル編集は、有望なソリューションである。
しかし、現在のGRモデルにモデル編集を適用することは簡単ではなく、検索結果に共有ドクIDの重なりが大きいため、クエリ間の不明瞭な編集ベクトルによって深刻な障害となる。
そこで本研究では,DOME (docID-oriented model editing) を提案する。
DOMEは,(1)クリティカルレイヤの識別,(2)編集ベクトルの最適化,(3)構築と更新の応用の3段階からなる。
コアとなるDOMEは、識別可能な更新のためにクエリ固有のセマンティクスを保存するソフトラベルと、正確なマッピング修正を強制するハードラベルを組み合わせることで、差別的な編集ベクタを学ぶハイブリッドラベル適応トレーニング戦略を採用している。
NQ や MS MARCO など,広く使用されているベンチマーク実験により,本手法はオリジナルコレクションの有効性を維持しつつ,新たな文書の検索性能を大幅に向上することを示した。
さらに、DOMEはインクリメンタルトレーニングに必要なトレーニング時間の約60%しか必要とせず、計算コストを大幅に削減し、効率的で頻繁なモデル更新を可能にする。
関連論文リスト
- DiffuGR: Generative Document Retrieval with Diffusion Language Models [80.78126312115087]
本稿ではDiffuGRと呼ばれる拡散言語モデルを用いた生成文書検索を提案する。
推論のために、DiffuGRはDocIDトークンを並列に生成し、制御可能な多数のデノナイジングステップを通じてそれを洗練しようと試みている。
従来の左から右への自動回帰デコーディングとは対照的に、DiffuGRはより信頼性の高いDocIDトークンを生成するための新しいメカニズムを提供する。
論文 参考訳(メタデータ) (2025-11-11T12:00:09Z) - Separate the Wheat from the Chaff: Winnowing Down Divergent Views in Retrieval Augmented Generation [61.47019392413271]
WinnowRAGは、価値あるコンテンツを保持しながら、ノイズの多いドキュメントを体系的にフィルタリングするように設計されている。
WinnowRAGは2段階で動作する: ステージIでは、クエリ対応クラスタリングを行い、類似したドキュメントをグループ化し、異なるトピッククラスタを形成する。
ステージIIでは,批判的なLCMが複数のエージェントの出力を評価し,有用な文書をノイズのあるものから反復的に分離する。
論文 参考訳(メタデータ) (2025-11-01T20:08:13Z) - Hi-Gen: Generative Retrieval For Large-Scale Personalized E-commerce Search [9.381220988816219]
本稿では,大規模パーソナライズされたEコマース検索システムのための効率的な階層符号化復号生成検索手法(Hi-Gen)を提案する。
まず、メトリック学習を用いて表現学習モデルを構築し、アイテムの識別的特徴表現を学習する。
そこで本研究では,カテゴリ誘導型階層クラスタリング手法を提案する。
論文 参考訳(メタデータ) (2024-04-24T06:05:35Z) - Planning Ahead in Generative Retrieval: Guiding Autoregressive Generation through Simultaneous Decoding [23.061797784952855]
本稿では,文書識別子の自動生成を支援する新しい最適化および復号化手法であるPAGを紹介する。
MSMARCO と TREC Deep Learning Track のデータによる実験の結果,PAG は最先端の生成的検索モデルよりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-22T21:50:01Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - Continual Learning for Generative Retrieval over Dynamic Corpora [115.79012933205756]
生成検索(GR)はパラメトリックモデルに基づいて関連文書の識別子(ドシデクス)を直接予測する。
クエリに応答する能力を保ちながら、新しいドキュメントをインクリメンタルにインデックスする能力は、GRモデルを適用する上で不可欠である。
我々は,CLEVERモデルのための新しい連続学習モデルを提案し,GRのための連続学習に2つの大きな貢献をした。
論文 参考訳(メタデータ) (2023-08-29T01:46:06Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。