論文の概要: Investigating Multi-layer Representations for Dense Passage Retrieval
- arxiv url: http://arxiv.org/abs/2509.23861v1
- Date: Sun, 28 Sep 2025 13:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.490823
- Title: Investigating Multi-layer Representations for Dense Passage Retrieval
- Title(参考訳): Dense Passage Retrievalのための多層表現の検討
- Authors: Zhongbin Xie, Thomas Lukasiewicz,
- Abstract要約: 文書の表現を構成するために多層表現(MLR)を示す。
まず,異なる層における表現がマルチベクトル検索条件下でのMLRの性能に与える影響について検討する。
本稿では,マルチベクタモデルから単一ベクタモデルへのプーリング戦略を活用することで,検索効率を向上させることを提案する。
- 参考スコア(独自算出の注目度): 46.25475369974163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense retrieval models usually adopt vectors from the last hidden layer of the document encoder to represent a document, which is in contrast to the fact that representations in different layers of a pre-trained language model usually contain different kinds of linguistic knowledge, and behave differently during fine-tuning. Therefore, we propose to investigate utilizing representations from multiple encoder layers to make up the representation of a document, which we denote Multi-layer Representations (MLR). We first investigate how representations in different layers affect MLR's performance under the multi-vector retrieval setting, and then propose to leverage pooling strategies to reduce multi-vector models to single-vector ones to improve retrieval efficiency. Experiments demonstrate the effectiveness of MLR over dual encoder, ME-BERT and ColBERT in the single-vector retrieval setting, as well as demonstrate that it works well with other advanced training techniques such as retrieval-oriented pre-training and hard negative mining.
- Abstract(参考訳): デンス検索モデルは、通常文書エンコーダの最後の隠れた層からのベクトルを文書を表現するために採用するが、これは、事前訓練された言語モデルの異なる層における表現は、通常異なる種類の言語知識を含み、微調整中に異なる振る舞いをするという事実とは対照的である。
そこで本稿では,複数のエンコーダ層からの表現を活用して文書の表現を構成することを提案する。
まず,マルチベクトル検索条件下でのMLRの性能に異なる層での表現がどう影響するかを考察し,マルチベクトルモデルから単一ベクトルモデルへのプーリング戦略を活用し,検索効率を向上させることを提案する。
デュアルエンコーダ, ME-BERT および ColBERT に対する MLR の有効性を単ベクトル検索環境で実証し, 検索指向の事前学習やハードネガティブマイニングなど, その他の高度な訓練手法と併用できることを実証した。
関連論文リスト
- MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction [13.70527493534928]
マルチモーダル検索のための新しいフレームワークであるMetaEmbedを紹介する。
トレーニング中は、入力シーケンスに一定の数の学習可能なメタトークンが付加される。
テスト時には、その最後のレイヤのコンテキスト化表現はコンパクトだが表現力のあるマルチベクトル埋め込みとして機能する。
論文 参考訳(メタデータ) (2025-09-22T17:59:42Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Language-aware Multiple Datasets Detection Pretraining for DETRs [4.939595148195813]
本稿では,METR と呼ばれる DETR 型検出器の事前学習に複数のデータセットを利用するためのフレームワークを提案する。
事前訓練された言語モデルを導入することにより、オブジェクト検出の典型的なマルチクラス化をバイナリ分類に変換する。
マルチタスク・ジョイントトレーニングとプレトレイン・ファネチューン・パラダイムのいずれにおいても,METRは異常な結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-07T10:34:04Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。