論文の概要: BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval
- arxiv url: http://arxiv.org/abs/2305.11052v1
- Date: Thu, 18 May 2023 15:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 14:19:26.662658
- Title: BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval
- Title(参考訳): BERM:Dense Retrievalの一般化能力向上のためのマッチングのためのバランスと抽出可能な表現の訓練
- Authors: Shicheng Xu, Liang Pang, Huawei Shen, Xueqi Cheng
- Abstract要約: 本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
- 参考スコア(独自算出の注目度): 54.66399120084227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense retrieval has shown promise in the first-stage retrieval process when
trained on in-domain labeled datasets. However, previous studies have found
that dense retrieval is hard to generalize to unseen domains due to its weak
modeling of domain-invariant and interpretable feature (i.e., matching signal
between two texts, which is the essence of information retrieval). In this
paper, we propose a novel method to improve the generalization of dense
retrieval via capturing matching signal called BERM. Fully fine-grained
expression and query-oriented saliency are two properties of the matching
signal. Thus, in BERM, a single passage is segmented into multiple units and
two unit-level requirements are proposed for representation as the constraint
in training to obtain the effective matching signal. One is semantic unit
balance and the other is essential matching unit extractability. Unit-level
view and balanced semantics make representation express the text in a
fine-grained manner. Essential matching unit extractability makes passage
representation sensitive to the given query to extract the pure matching
information from the passage containing complex context. Experiments on BEIR
show that our method can be effectively combined with different dense retrieval
training methods (vanilla, hard negatives mining and knowledge distillation) to
improve its generalization ability without any additional inference overhead
and target domain data.
- Abstract(参考訳): 高密度検索は、ドメイン内ラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
しかし、従来の研究では、ドメイン不変かつ解釈可能な特徴(すなわち、情報検索の本質である2つのテキスト間の信号のマッチング)の弱いモデリングのために、密集した検索を未認識領域に一般化することは困難である。
本稿では,BERMと呼ばれるマッチング信号をキャプチャすることで,高密度検索の一般化を改善する手法を提案する。
完全きめ細かい表現とクエリ指向の相性は、マッチング信号の2つの特性である。
このように、BERMでは、1つの通路を複数の単位に分割し、2つの単位レベル要件をトレーニングの制約として提案し、効果的なマッチング信号を得る。
1つは意味的単位バランス、もう1つは本質的マッチング単位抽出可能性である。
単位レベルのビューとバランスの取れたセマンティクスは、表現をきめ細かい方法で表現する。
基本整合ユニット抽出性は、与えられたクエリに敏感な通過表現を与え、複雑なコンテキストを含む通路から純粋整合情報を抽出する。
ベイル実験では,提案手法を異なる濃密検索訓練法(バニラ,ハード負のマイニング,知識蒸留)と効果的に組み合わせることで,追加の推論オーバーヘッドや対象領域データなしに一般化能力を向上させることができることを示した。
関連論文リスト
- Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Dense X Retrieval: What Retrieval Granularity Should We Use? [56.90827473115201]
しばしば見過ごされる設計選択は、コーパスが索引付けされる検索単位である。
本稿では,高密度検索のための新しい検索ユニット,命題を提案する。
実験により、提案のような細粒度単位によるコーパスのインデックス付けは、検索タスクにおける通過レベル単位を著しく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-11T18:57:35Z) - Revisiting Sparse Retrieval for Few-shot Entity Linking [33.15662306409253]
本稿では,ELECTRAに基づくキーワード抽出手法を提案する。
抽出器のトレーニングには,参照コンテキストとエンティティ記述との間に重複するトークンをベースとしたトレーニングデータを自動的に生成する遠隔監視手法を提案する。
ZESHELデータセットによる実験結果から,提案手法はすべてのテスト領域において,最先端モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-19T03:51:10Z) - Topic-DPR: Topic-based Prompts for Dense Passage Retrieval [6.265789210037749]
トピックベースのプロンプトを用いた高密度経路探索モデルであるTopic-DPRを提案する。
本稿では, 半構造化データを利用して高密度検索効率を向上させる, 新規な正負サンプリング手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T13:45:24Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Unsupervised Summarization by Jointly Extracting Sentences and Keywords [12.387378783627762]
RepRankは、抽出多文書要約のための教師なしグラフベースのランキングモデルである。
学習した表現を用いて,有意な文やキーワードを協調的・相互強化プロセスで抽出できることを示す。
複数のベンチマークデータセットによる実験結果は、RepRankがROUGEで最高の、または同等のパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2020-09-16T05:58:00Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。