論文の概要: From Distillation to Hard Negative Sampling: Making Sparse Neural IR
Models More Effective
- arxiv url: http://arxiv.org/abs/2205.04733v2
- Date: Thu, 12 May 2022 14:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 12:23:37.593951
- Title: From Distillation to Hard Negative Sampling: Making Sparse Neural IR
Models More Effective
- Title(参考訳): 蒸留から硬度負サンプリングへ:スパークニューラルIRモデルをより効果的に
- Authors: Thibault Formal, Carlos Lassance, Benjamin Piwowarski, St\'ephane
Clinchant
- Abstract要約: スパース拡張ベースのレトリバーであるSPLADEを使って構築し、密集したモデルと同じトレーニング改善の恩恵を受けることができるかを示します。
ドメイン内およびゼロショット設定における有効性と効率の関係について検討する。
- 参考スコア(独自算出の注目度): 15.542082655342476
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural retrievers based on dense representations combined with Approximate
Nearest Neighbors search have recently received a lot of attention, owing their
success to distillation and/or better sampling of examples for training --
while still relying on the same backbone architecture. In the meantime, sparse
representation learning fueled by traditional inverted indexing techniques has
seen a growing interest, inheriting from desirable IR priors such as explicit
lexical matching. While some architectural variants have been proposed, a
lesser effort has been put in the training of such models. In this work, we
build on SPLADE -- a sparse expansion-based retriever -- and show to which
extent it is able to benefit from the same training improvements as dense
models, by studying the effect of distillation, hard-negative mining as well as
the Pre-trained Language Model initialization. We furthermore study the link
between effectiveness and efficiency, on in-domain and zero-shot settings,
leading to state-of-the-art results in both scenarios for sufficiently
expressive models.
- Abstract(参考訳): Approximate Nearest Neighborsサーチと組み合わせた高密度表現に基づくニューラルレトリバーは、蒸留の成功とトレーニングのサンプルのより優れたサンプリングにより、最近多くの注目を集めているが、それでも同じバックボーンアーキテクチャに依存している。
その間、伝統的な逆インデックス技術によって引き起こされたスパース表現学習は、明示的な語彙マッチングのような望ましいir優先から受け継がれている。
いくつかのアーキテクチャの変種が提案されているが、そのようなモデルの訓練にはより少ない労力が費やされている。
本研究では, 希薄な膨張型レトリバーであるSPLADEを用いて, 蒸留, 硬負マイニング, および事前学習言語モデルの初期化の効果について検討することにより, 密集モデルと同等のトレーニング改善の恩恵を受けることができるかを示す。
さらに、ドメイン内およびゼロショット設定における効率性と効率の関係について検討し、十分な表現力のあるモデルにおける両方のシナリオにおける最先端の結果をもたらす。
関連論文リスト
- Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Diffusion-Based Speech Enhancement in Matched and Mismatched Conditions
Using a Heun-Based Sampler [16.13996677489119]
拡散モデルは、最近音声強調にうまく適用された新しい生成モデルである。
先行研究は、最先端の差別モデルと比較して、不一致条件下での優れた性能を実証している。
提案システムは,複数のデータベースをトレーニングに利用することにより,一致条件と一致条件の双方において,最先端の識別モデルよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-12-05T11:40:38Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Bayesian sparsification for deep neural networks with Bayesian model
reduction [0.6144680854063939]
我々は,モデルウェイトを刈り取るためのより効率的な代替手段として,ベイズモデルリダクション(BMR)の使用を提唱する。
BMRは、単純な(非階層的な)生成モデルの下での後方推定に基づいて、余剰モデル重みのポストホック除去を可能にする。
我々は、LeNetのような古典的なネットワークから、VisionやTransformers-Mixersのようなモダンなフレームワークまで、さまざまなディープラーニングアーキテクチャにおけるBMRの可能性について説明する。
論文 参考訳(メタデータ) (2023-09-21T14:10:47Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。