Fugu-MT 論文翻訳(概要): UnifieR: A Unified Retriever for Large-Scale Retrieval

論文の概要: UnifieR: A Unified Retriever for Large-Scale Retrieval

arxiv url: http://arxiv.org/abs/2205.11194v2
Date: Sun, 4 Jun 2023 12:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 05:22:36.185407
Title: UnifieR: A Unified Retriever for Large-Scale Retrieval
Title（参考訳）: UnifieR: 大規模検索のための統一検索ツール
Authors: Tao Shen, Xiubo Geng, Chongyang Tao, Can Xu, Guodong Long, Kai Zhang, Daxin Jiang
Abstract要約: 大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
参考スコア（独自算出の注目度）: 84.61239936314597
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale retrieval is to recall relevant documents from a huge collection given a query. It relies on representation learning to embed documents and queries into a common semantic encoding space. According to the encoding space, recent retrieval methods based on pre-trained language models (PLM) can be coarsely categorized into either dense-vector or lexicon-based paradigms. These two paradigms unveil the PLMs' representation capability in different granularities, i.e., global sequence-level compression and local word-level contexts, respectively. Inspired by their complementary global-local contextualization and distinct representing views, we propose a new learning framework, UnifieR which unifies dense-vector and lexicon-based retrieval in one model with a dual-representing capability. Experiments on passage retrieval benchmarks verify its effectiveness in both paradigms. A uni-retrieval scheme is further presented with even better retrieval quality. We lastly evaluate the model on BEIR benchmark to verify its transferability.
Abstract（参考訳）: 大規模な検索は、クエリを与えられた巨大なコレクションから関連するドキュメントをリコールする。ドキュメントやクエリを共通のセマンティックエンコーディング空間に埋め込むための表現学習に依存している。符号化空間によれば, 事前学習言語モデル(PLM)に基づく最近の検索手法は, 密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。これらの2つのパラダイムは、PLMの表現能力を異なる粒度、すなわちグローバルシーケンスレベルの圧縮とローカルワードレベルのコンテキストで表す。そこで我々は,2つの表現能力を持つ1つのモデルにおいて,高密度ベクトルとレキシコンに基づく検索を統一する学習フレームワークUnifieRを提案する。パッセージ検索ベンチマーク実験は両パラダイムにおいてその効果を検証している。 uni-retrievalスキームは、さらに優れた検索品質で示される。最後に、このモデルをBEIRベンチマークで評価し、転送性を検証する。

関連論文リスト

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG [1.4425299138308667]
BM25の文書は、コーパスレベルの重み付けと重なり合う。大規模なクエリドキュメントデータセットでトレーニングされたエンドツーエンドのマルチモーダルレトリバーは、これらのアプローチよりも大幅に改善されている。より優れたドキュメント表現がベンチマーク改善の原動力であることを実証する。
論文参考訳（メタデータ） (2026-03-04T16:21:20Z)
Guided Query Refinement: Multimodal Hybrid Retrieval with Test-Time Optimization [10.476757608225475]
マルチモーダルエンコーダは、視覚文書検索の境界を押し広げている。このパラダイムに依存する最近のモデルは、クエリやドキュメントの表現のサイズを大幅に拡大しています。軽量な高密度テキストレトリバーが、より強力な視覚中心モデルを強化することができるかどうかを検討する。
論文参考訳（メタデータ） (2025-10-06T17:12:53Z)
Investigating Multi-layer Representations for Dense Passage Retrieval [46.25475369974163]
文書の表現を構成するために多層表現(MLR)を示す。まず,異なる層における表現がマルチベクトル検索条件下でのMLRの性能に与える影響について検討する。本稿では,マルチベクタモデルから単一ベクタモデルへのプーリング戦略を活用することで,検索効率を向上させることを提案する。
論文参考訳（メタデータ） (2025-09-28T13:00:53Z)
Learning More Effective Representations for Dense Retrieval through Deliberate Thinking Before Search [65.53881294642451]
ディリベレート思考に基づくDense Retriever (DEBATER) DEBATERは、ステップバイステップの思考プロセスを通じて、より効果的な文書表現を学習できるようにすることにより、最近の密集型検索機能を強化している。実験の結果,DEBATERはいくつかのベンチマークで既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
GeAR: Generation Augmented Retrieval [82.20696567697016]
文書検索技術は大規模情報システム開発の基礎となる。一般的な手法は、バイエンコーダを構築し、セマンティックな類似性を計算することである。我々は、よく設計された融合およびデコードモジュールを組み込んだ $textbfGe$neration という新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-06T05:29:00Z)
Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文参考訳（メタデータ） (2024-12-21T13:19:15Z)
Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。 2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。 LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文参考訳（メタデータ） (2024-10-08T15:22:36Z)
ACE: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine Semantic Modeling [53.97609687516371]
我々は、エンドツーエンドのクロスモーダル検索のための先駆的なジェネリッククロスモーダル rEtrieval framework (ACE) を提案する。 ACEは、クロスモーダル検索における最先端のパフォーマンスを達成し、Recall@1の強いベースラインを平均15.27%上回る。
論文参考訳（メタデータ） (2024-06-25T12:47:04Z)
MINERS: Multilingual Language Models as Semantic Retrievers [23.686762008696547]
本稿では,意味検索タスクにおける多言語言語モデルの有効性を評価するためのベンチマークであるMINERSを紹介する。我々は,200以上の多言語にわたるサンプルの検索において,LMの堅牢性を評価する包括的なフレームワークを構築した。以上の結果から,意味論的に類似した埋め込みを検索することで,最先端のアプローチと競合する性能が得られることが示された。
論文参考訳（メタデータ） (2024-06-11T16:26:18Z)
Adapting Dual-encoder Vision-language Models for Paraphrased Retrieval [55.90407811819347]
モデルが類似した結果を返すことを目的とした,パラフレーズ付きテキスト画像検索の課題について考察する。我々は、大きなテキストコーパスで事前訓練された言語モデルから始まる二重エンコーダモデルを訓練する。 CLIPやOpenCLIPのような公開デュアルエンコーダモデルと比較して、最高の適応戦略で訓練されたモデルは、パラフレーズクエリのランク付けの類似性を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-06T06:30:17Z)
PromptReps: Prompting Large Language Models to Generate Dense and Sparse Representations for Zero-Shot Document Retrieval [76.50690734636477]
本稿では,PmptRepsを提案する。このPmptRepsは,トレーニングを必要とせず,コーパス全体から検索できる機能である。検索システムは、高密度テキスト埋め込みとスパースバッグ・オブ・ワード表現の両方を利用する。
論文参考訳（メタデータ） (2024-04-29T04:51:30Z)
BERM: Training the Balanced and Extractable Representation for Matching to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文参考訳（メタデータ） (2023-05-18T15:43:09Z)
RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models [12.37229805276939]
本稿では,DupMAE(Duplex Masked Auto-Encoder)と呼ばれる新しい事前学習手法を提案する。事前訓練されたモデルのすべてのコンテキスト化埋め込みを活用できる品質意味表現を改善するように設計されている。
論文参考訳（メタデータ） (2023-05-04T05:37:22Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
A Proposed Conceptual Framework for a Representational Approach to Information Retrieval [42.67826268399347]
本稿では,情報検索と自然言語処理における最近の発展を理解するための概念的枠組みについて概説する。本稿では,コアテキスト検索問題を論理的スコアリングモデルと物理的検索モデルに分解する表現的アプローチを提案する。
論文参考訳（メタデータ） (2021-10-04T15:57:02Z)
Coarse-to-Fine Memory Matching for Joint Retrieval and Classification [0.7081604594416339]
共同検索と分類のための新しいエンドツーエンド言語モデルを提案する。 FEVERファクト検証データセットの標準ブラインドテストセットで評価する。我々は、モデルを分析・制約するためのこの設定に、模範監査を拡張します。
論文参考訳（メタデータ） (2020-11-29T05:06:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。