論文の概要: DOGR: Leveraging Document-Oriented Contrastive Learning in Generative Retrieval
- arxiv url: http://arxiv.org/abs/2502.07219v1
- Date: Tue, 11 Feb 2025 03:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:05:43.019119
- Title: DOGR: Leveraging Document-Oriented Contrastive Learning in Generative Retrieval
- Title(参考訳): DOGR: 生成検索におけるドキュメント指向のコントラスト学習の活用
- Authors: Penghao Lu, Xin Dong, Yuansheng Zhou, Lei Cheng, Chuan Yuan, Linjian Mo,
- Abstract要約: 生成検索における文書指向コントラスト学習(DOGR)という,新規で汎用的な生成検索フレームワークを提案する。
DOGRleveragesは、生成的検索タスクを改善するために対照的な学習を行う。
2つの公開ベンチマークデータセット上で、既存の生成的検索手法に比較して、最先端のパフォーマンスのコンパスを実現する。
- 参考スコア(独自算出の注目度): 10.770281363775148
- License:
- Abstract: Generative retrieval constitutes an innovative approach in in- formation retrieval, leveraging generative language models (LM) to generate a ranked list of document identifiers (do- cid) for a given query. It simplifies the retrieval pipeline by replacing the large external index with model parameters. However, existing works merely learned the relationship be- tween queries and document identifiers, which is unable to directly represent the relevance between queries and docu- ments. To address the above problem, we propose a novel and general generative retrieval framework, namely Leverag- ing Document-Oriented Contrastive Learning in Generative Retrieval (DOGR), which leverages contrastive learning to improve generative retrieval tasks. It adopts a two-stage learn- ing strategy that captures the relationship between queries and documents comprehensively through direct interactions. Furthermore, negative sampling methods and correspond- ing contrastive learning objectives are implemented to en- hance the learning of semantic representations, thereby pro- moting a thorough comprehension of the relationship be- tween queries and documents. Experimental results demon- strate that DOGR achieves state-of-the-art performance com- pared to existing generative retrieval methods on two public benchmark datasets. Further experiments have shown that our framework is generally effective for common identifier con- struction techniques.
- Abstract(参考訳): 生成言語モデル(LM)を利用して、与えられたクエリに対する文書識別子(do-cid)のランク付けリストを生成する。
大規模な外部インデックスをモデルパラメータに置き換えることで、検索パイプラインを単純化する。
しかし、既存の作業では、クエリとドキュメント識別子の関係を学習するだけで、クエリとドキュメントの関連性を直接表現することはできない。
上記の問題に対処するために,コントラスト学習を活用して生成検索タスクを改善する,新規で汎用的な生成検索フレームワークであるLeverag-ing Document-Oriented Contrastive Learning in Generative Retrieval (DOGR)を提案する。
直接対話を通じてクエリとドキュメントの関係を包括的にキャプチャする2段階の学習戦略を採用している。
さらに、意味表現の学習を促すために、ネガティブサンプリング法と対応学習学習目的を実装し、その関係を徹底的に理解し、クエリやドキュメントをプロモートする。
実験結果 DOGRは2つの公開ベンチマークデータセット上の既存の生成的検索手法に比較して,最先端のパフォーマンスのコンパスを達成している。
さらなる実験により,本フレームワークは一般的な識別子・コンストラクション技術に有効であることが確認された。
関連論文リスト
- Bridging Search and Recommendation in Generative Retrieval: Does One Task Help the Other? [9.215695600542249]
検索とレコメンデーションのための生成的検索は、アイテムを検索する上で有望なパラダイムである。
これらの生成システムは、様々な情報検索タスクを単一のモデルにまとめる上で重要な役割を果たす。
本稿では,このような統合されたアプローチが,IRタスクの検索・推薦においてタスク固有モデルより優れているかどうかを考察する。
論文 参考訳(メタデータ) (2024-10-22T08:49:43Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - Leveraging Inter-Chunk Interactions for Enhanced Retrieval in Large Language Model-Based Question Answering [12.60063463163226]
IIERは、構造、キーワード、セマンティックという3つのタイプの相互作用を考慮し、ドキュメントチャンク間の内部接続をキャプチャする。
対象の質問に基づいて複数のシードノードを特定し、関連するチャンクを反復的に検索して、支持する証拠を収集する。
コンテキストと推論チェーンを洗練し、推論と回答の生成において大きな言語モデルを支援する。
論文 参考訳(メタデータ) (2024-08-06T02:39:55Z) - Query-oriented Data Augmentation for Session Search [71.84678750612754]
本稿では,検索ログの強化とモデリングの強化を目的としたクエリ指向データ拡張を提案する。
検索コンテキストの最も重要な部分を変更することで補足的なトレーニングペアを生成する。
我々は、現在のクエリを変更するためのいくつかの戦略を開発し、その結果、様々な難易度で新しいトレーニングデータを得る。
論文 参考訳(メタデータ) (2024-07-04T08:08:33Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - CorpusLM: Towards a Unified Language Model on Corpus for Knowledge-Intensive Tasks [20.390672895839757]
Retrieval-augmented Generation (RAG) は、事実精度を高めるための一般的なソリューションとして登場した。
従来の検索モジュールは、大きなドキュメントインデックスと生成タスクとの切り離しに依存していることが多い。
生成検索,クローズドブック生成,RAGを統合した統一言語モデルである textbfCorpusLM を提案する。
論文 参考訳(メタデータ) (2024-02-02T06:44:22Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。