論文の概要: From Distillation to Hard Negative Sampling: Making Sparse Neural IR
Models More Effective
- arxiv url: http://arxiv.org/abs/2205.04733v2
- Date: Thu, 12 May 2022 14:58:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 12:23:37.593951
- Title: From Distillation to Hard Negative Sampling: Making Sparse Neural IR
Models More Effective
- Title(参考訳): 蒸留から硬度負サンプリングへ:スパークニューラルIRモデルをより効果的に
- Authors: Thibault Formal, Carlos Lassance, Benjamin Piwowarski, St\'ephane
Clinchant
- Abstract要約: スパース拡張ベースのレトリバーであるSPLADEを使って構築し、密集したモデルと同じトレーニング改善の恩恵を受けることができるかを示します。
ドメイン内およびゼロショット設定における有効性と効率の関係について検討する。
- 参考スコア(独自算出の注目度): 15.542082655342476
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Neural retrievers based on dense representations combined with Approximate
Nearest Neighbors search have recently received a lot of attention, owing their
success to distillation and/or better sampling of examples for training --
while still relying on the same backbone architecture. In the meantime, sparse
representation learning fueled by traditional inverted indexing techniques has
seen a growing interest, inheriting from desirable IR priors such as explicit
lexical matching. While some architectural variants have been proposed, a
lesser effort has been put in the training of such models. In this work, we
build on SPLADE -- a sparse expansion-based retriever -- and show to which
extent it is able to benefit from the same training improvements as dense
models, by studying the effect of distillation, hard-negative mining as well as
the Pre-trained Language Model initialization. We furthermore study the link
between effectiveness and efficiency, on in-domain and zero-shot settings,
leading to state-of-the-art results in both scenarios for sufficiently
expressive models.
- Abstract(参考訳): Approximate Nearest Neighborsサーチと組み合わせた高密度表現に基づくニューラルレトリバーは、蒸留の成功とトレーニングのサンプルのより優れたサンプリングにより、最近多くの注目を集めているが、それでも同じバックボーンアーキテクチャに依存している。
その間、伝統的な逆インデックス技術によって引き起こされたスパース表現学習は、明示的な語彙マッチングのような望ましいir優先から受け継がれている。
いくつかのアーキテクチャの変種が提案されているが、そのようなモデルの訓練にはより少ない労力が費やされている。
本研究では, 希薄な膨張型レトリバーであるSPLADEを用いて, 蒸留, 硬負マイニング, および事前学習言語モデルの初期化の効果について検討することにより, 密集モデルと同等のトレーニング改善の恩恵を受けることができるかを示す。
さらに、ドメイン内およびゼロショット設定における効率性と効率の関係について検討し、十分な表現力のあるモデルにおける両方のシナリオにおける最先端の結果をもたらす。
関連論文リスト
- MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z) - Learning Rich Nearest Neighbor Representations from Self-supervised
Ensembles [60.97922557957857]
推論時間における勾配降下から直接表現を学習する新しい手法により、自己教師付きモデルアンサンブルを行うためのフレームワークを提供する。
この技術は、ドメイン内のデータセットと転送設定の両方において、k-nearestの隣人によって測定されるように、表現品質を改善する。
論文 参考訳(メタデータ) (2021-10-19T22:24:57Z) - SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval [11.38022203865326]
SPLADEモデルは、最先端の高密度かつスパースなアプローチに関して、高度にスパースな表現と競争結果を提供する。
我々は、プール機構を変更し、文書拡張のみに基づいてモデルをベンチマークし、蒸留で訓練されたモデルを導入する。
全体として、SPLADEはTREC DL 2019のNDCG@10で9ドル以上のゲインで大幅に改善され、BEIRベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2021-09-21T10:43:42Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Multi-Contextual Design of Convolutional Neural Network for Steganalysis [8.631228373008478]
近年のステガノグラフィーの埋め込みは、必ずしも高周波帯への埋め込みを制限せず、埋め込みポリシーに従って配布している。
本研究では,従来の手法とは異なり,まず学習した復号化カーネルを用いて雑音残差を抽出し,信号対雑音比を向上する。
前処理後、スパースノイズ残差は、異種コンテキストサイズを用いてノイズ残差のスパースおよび低振幅表現を学習する新しいマルチコンテキスト畳み込みニューラルネットワーク(M-CNET)に供給される。
論文 参考訳(メタデータ) (2021-06-19T05:38:52Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - CDLNet: Robust and Interpretable Denoising Through Deep Convolutional
Dictionary Learning [6.6234935958112295]
unrolled optimization networksは、ディープニューラルネットワークを構築するための解釈可能な代替案を提案する。
提案したモデルが,同様のパラメータ数にスケールすると,最先端のデノイジングモデルに勝ることを示す。
論文 参考訳(メタデータ) (2021-03-05T01:15:59Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。