論文の概要: UnifieR: A Unified Retriever for Large-Scale Retrieval
- arxiv url: http://arxiv.org/abs/2205.11194v2
- Date: Sun, 4 Jun 2023 12:59:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 05:22:36.185407
- Title: UnifieR: A Unified Retriever for Large-Scale Retrieval
- Title(参考訳): UnifieR: 大規模検索のための統一検索ツール
- Authors: Tao Shen, Xiubo Geng, Chongyang Tao, Can Xu, Guodong Long, Kai Zhang,
Daxin Jiang
- Abstract要約: 大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
- 参考スコア(独自算出の注目度): 84.61239936314597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale retrieval is to recall relevant documents from a huge collection
given a query. It relies on representation learning to embed documents and
queries into a common semantic encoding space. According to the encoding space,
recent retrieval methods based on pre-trained language models (PLM) can be
coarsely categorized into either dense-vector or lexicon-based paradigms. These
two paradigms unveil the PLMs' representation capability in different
granularities, i.e., global sequence-level compression and local word-level
contexts, respectively. Inspired by their complementary global-local
contextualization and distinct representing views, we propose a new learning
framework, UnifieR which unifies dense-vector and lexicon-based retrieval in
one model with a dual-representing capability. Experiments on passage retrieval
benchmarks verify its effectiveness in both paradigms. A uni-retrieval scheme
is further presented with even better retrieval quality. We lastly evaluate the
model on BEIR benchmark to verify its transferability.
- Abstract(参考訳): 大規模な検索は、クエリを与えられた巨大なコレクションから関連するドキュメントをリコールする。
ドキュメントやクエリを共通のセマンティックエンコーディング空間に埋め込むための表現学習に依存している。
符号化空間によれば, 事前学習言語モデル(PLM)に基づく最近の検索手法は, 密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
これらの2つのパラダイムは、PLMの表現能力を異なる粒度、すなわちグローバルシーケンスレベルの圧縮とローカルワードレベルのコンテキストで表す。
そこで我々は,2つの表現能力を持つ1つのモデルにおいて,高密度ベクトルとレキシコンに基づく検索を統一する学習フレームワークUnifieRを提案する。
パッセージ検索ベンチマーク実験は両パラダイムにおいてその効果を検証している。
uni-retrievalスキームは、さらに優れた検索品質で示される。
最後に、このモデルをBEIRベンチマークで評価し、転送性を検証する。
関連論文リスト
- GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。
一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。
我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-06T05:29:00Z) - Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。
このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。
我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文 参考訳(メタデータ) (2024-12-21T13:19:15Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。
ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文 参考訳(メタデータ) (2024-06-25T12:47:04Z) - Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。
我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。
CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-06T06:30:17Z) - RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training
Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。
事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文 参考訳(メタデータ) (2023-05-04T05:37:22Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - A Proposed Conceptual Framework for a Representational Approach to
Information Retrieval [42.67826268399347]
本稿では,情報検索と自然言語処理における最近の発展を理解するための概念的枠組みについて概説する。
本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。
論文 参考訳(メタデータ) (2021-10-04T15:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。