論文の概要: Link, Synthesize, Retrieve: Universal Document Linking for Zero-Shot Information Retrieval
- arxiv url: http://arxiv.org/abs/2410.18385v1
- Date: Thu, 24 Oct 2024 02:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:50:38.857530
- Title: Link, Synthesize, Retrieve: Universal Document Linking for Zero-Shot Information Retrieval
- Title(参考訳): Link, Synthesize, Retrieve: ゼロショット情報検索のためのユニバーサルドキュメントリンク
- Authors: Dae Yon Hwang, Bilal Taha, Harshit Pande, Yaroslav Nechaev,
- Abstract要約: 本稿では,複数のデータセットにまたがる合成クエリ生成を促進するために,類似文書をリンクするUniversal Document Linking (UDL)アルゴリズムを提案する。
我々の実証研究は、多種多様なデータセットとIRモデルにまたがるUDLの有効性と普遍性を実証し、ゼロショットの場合の最先端手法を超越した。
- 参考スコア(独自算出の注目度): 9.830621196389549
- License:
- Abstract: Despite the recent advancements in information retrieval (IR), zero-shot IR remains a significant challenge, especially when dealing with new domains, languages, and newly-released use cases that lack historical query traffic from existing users. For such cases, it is common to use query augmentations followed by fine-tuning pre-trained models on the document data paired with synthetic queries. In this work, we propose a novel Universal Document Linking (UDL) algorithm, which links similar documents to enhance synthetic query generation across multiple datasets with different characteristics. UDL leverages entropy for the choice of similarity models and named entity recognition (NER) for the link decision of documents using similarity scores. Our empirical studies demonstrate the effectiveness and universality of the UDL across diverse datasets and IR models, surpassing state-of-the-art methods in zero-shot cases. The developed code for reproducibility is included in https://github.com/eoduself/UDL
- Abstract(参考訳): 情報検索(IR)の最近の進歩にもかかわらず、ゼロショットIRは、特に新しいドメイン、言語、そして既存のユーザからの履歴クエリトラフィックを欠いた新しくリリースされたユースケースを扱う場合、大きな課題である。
このような場合、クエリ拡張と、合成クエリと組み合わせたドキュメントデータ上で、微調整された事前学習モデルを使用するのが一般的である。
本研究では、類似文書をリンクし、異なる特徴を持つ複数のデータセットにまたがる合成クエリ生成を強化するUniversal Document Linking (UDL)アルゴリズムを提案する。
UDLは、類似度モデルの選択にエントロピー、類似度スコアを用いた文書のリンク決定に名前付きエンティティ認識(NER)を利用する。
我々の実証研究は、多種多様なデータセットとIRモデルにまたがるUDLの有効性と普遍性を実証し、ゼロショットの場合の最先端手法を超越した。
再現性のための開発コードはhttps://github.com/eoduself/UDLに含まれる。
関連論文リスト
- Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - AutoRE: Document-Level Relation Extraction with Large Language Models [27.426703757501507]
我々は、RHF(Relation-Head-Facts)という新しいRE抽出パラダイムを採用した、エンド・ツー・エンドのDocREモデルであるAutoREを紹介する。
既存のアプローチとは異なり、AutoREは既知の関係オプションの仮定に依存しておらず、現実のシナリオをより反映している。
RE-DocREDデータセットの実験では、AutoREの最高のパフォーマンスを示し、最先端の結果が得られました。
論文 参考訳(メタデータ) (2024-03-21T23:48:21Z) - It's All Relative! -- A Synthetic Query Generation Approach for
Improving Zero-Shot Relevance Prediction [19.881193965130173]
大規模言語モデル(LLM)は、最大8つのデモをプロンプトすることで、合成クエリ-ドキュメントペアを生成する能力を示す。
異なるラベルに対するクエリを同時に生成することで,この負担を軽減することを提案する。
論文 参考訳(メタデータ) (2023-11-14T06:16:49Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。