論文の概要: Towards Unsupervised Dense Information Retrieval with Contrastive
Learning
- arxiv url: http://arxiv.org/abs/2112.09118v1
- Date: Thu, 16 Dec 2021 18:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:49:03.092607
- Title: Towards Unsupervised Dense Information Retrieval with Contrastive
Learning
- Title(参考訳): コントラスト学習による教師なし情報検索に向けて
- Authors: Gautier Izacard and Mathilde Caron and Lucas Hosseini and Sebastian
Riedel and Piotr Bojanowski and Armand Joulin and Edouard Grave
- Abstract要約: 比較学習は教師なし高密度検索者の学習に有効であることを示す。
私たちのモデルは15のデータセットのうち11でBM25より優れています。
- 参考スコア(独自算出の注目度): 38.42033176712396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Information retrieval is an important component in natural language
processing, for knowledge intensive tasks such as question answering and fact
checking. Recently, information retrieval has seen the emergence of dense
retrievers, based on neural networks, as an alternative to classical sparse
methods based on term-frequency. These models have obtained state-of-the-art
results on datasets and tasks where large training sets are available. However,
they do not transfer well to new domains or applications with no training data,
and are often outperformed by term-frequency methods such as BM25 which are not
supervised. Thus, a natural question is whether it is possible to train dense
retrievers without supervision. In this work, we explore the limits of
contrastive learning as a way to train unsupervised dense retrievers, and show
that it leads to strong retrieval performance. More precisely, we show on the
BEIR benchmark that our model outperforms BM25 on 11 out of 15 datasets.
Furthermore, when a few thousands examples are available, we show that
fine-tuning our model on these leads to strong improvements compared to BM25.
Finally, when used as pre-training before fine-tuning on the MS-MARCO dataset,
our technique obtains state-of-the-art results on the BEIR benchmark.
- Abstract(参考訳): 情報検索は自然言語処理において,質問応答や事実チェックといった知識集約的なタスクにおいて重要な要素である。
近年,用語周波数に基づく古典的スパース手法の代替として,ニューラルネットワークに基づく高密度検索器が出現している。
これらのモデルは、大規模なトレーニングセットが利用可能なデータセットやタスクに関する最先端の結果を得た。
しかし、これらはトレーニングデータを持たない新しいドメインやアプリケーションにうまく移行せず、管理されていないBM25のような項周波数法では性能が良くない。
したがって、自然の疑問は、密集したレトリバーを監督なしで訓練できるかどうかである。
本研究では,教師なしの密集したレトリバーを訓練する方法として,コントラスト学習の限界を探求し,強力な検索性能をもたらすことを示す。
より正確には、BEIRベンチマークで、私たちのモデルは15のデータセットのうち11でBM25より優れています。
さらに、数千のサンプルが利用可能になると、これらのモデルに微調整を行うことで、bm25よりも強力な改善が得られます。
最後に,MS-MARCOデータセットの微調整に先立って事前学習を行うと,BEIRベンチマークで最先端の結果が得られた。
関連論文リスト
- Adaptive Memory Replay for Continual Learning [29.333341368722653]
新たなデータが利用可能になれば、ファンデーションモデルの更新は破滅的な忘れに繋がる」
連続学習のための適応型メモリリプレイの枠組みを導入し、過去のデータのサンプリングをマルチアームバンディット問題と表現する。
我々は,学習効率を犠牲にすることなく,最大10%の忘れ込みを低減しつつ,高い性能を維持するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T22:01:56Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Selecting which Dense Retriever to use for Zero-Shot Search [34.04158960512326]
本稿では,ラベルを使用できない新しいコレクションを検索する際に使用する高密度検索モデルを選択するための新しい問題を提案する。
教師なし性能評価における最近の研究にインスパイアされた手法は,高能率検索器の選択に有効ではないことを示す。
論文 参考訳(メタデータ) (2023-09-18T00:01:24Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Learning to Retrieve Passages without Supervision [58.31911597824848]
オープンドメイン質問応答(ODQA)のためのダンスレトリバーは,問合せペアの大規模データセットをトレーニングすることで,優れた性能を発揮することが示されている。
そこで本研究では,自己教師型で高密度検索が学べるかどうかを考察し,アノテーションを使わずに効果的に適用する。
論文 参考訳(メタデータ) (2021-12-14T19:18:08Z) - End-to-End Training of Neural Retrievers for Open-Domain Question
Answering [32.747113232867825]
ニューラルレトリバーに対して、非監視および監督された方法が最も効果的に使用できるかは不明である。
Inverse Cloze Taskとマスク付きサラエントスパンによる教師なしプリトレーニングのアプローチを提案します。
また,OpenQAモデルにおけるリーダとレシーバコンポーネントのエンドツーエンド教師付きトレーニングのための2つのアプローチについても検討する。
論文 参考訳(メタデータ) (2021-01-02T09:05:34Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。