論文の概要: Distill-VQ: Learning Retrieval Oriented Vector Quantization By
Distilling Knowledge from Dense Embeddings
- arxiv url: http://arxiv.org/abs/2204.00185v1
- Date: Fri, 1 Apr 2022 03:30:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 23:26:18.972568
- Title: Distill-VQ: Learning Retrieval Oriented Vector Quantization By
Distilling Knowledge from Dense Embeddings
- Title(参考訳): distill-vq: 濃密埋め込みからの知識の蒸留による学習検索指向ベクトル量子化
- Authors: Shitao Xiao, Zheng Liu, Weihao Han, Jianjin Zhang, Defu Lian, Yeyun
Gong, Qi Chen, Fan Yang, Hao Sun, Yingxia Shao, Denvy Deng, Qi Zhang, Xing
Xie
- Abstract要約: 本稿では,IVF と PQ の学習を知識蒸留フレームワーク内で統合する Distill-VQ を提案する。
VQモジュールは、予測された関連性を再現するために学習される「学生」として扱われる。
これによってDistill-VQは、大量のラベルのないデータから、相当量のトレーニング信号を導き出すことができる。
- 参考スコア(独自算出の注目度): 50.903547893204234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vector quantization (VQ) based ANN indexes, such as Inverted File System
(IVF) and Product Quantization (PQ), have been widely applied to embedding
based document retrieval thanks to the competitive time and memory efficiency.
Originally, VQ is learned to minimize the reconstruction loss, i.e., the
distortions between the original dense embeddings and the reconstructed
embeddings after quantization. Unfortunately, such an objective is inconsistent
with the goal of selecting ground-truth documents for the input query, which
may cause severe loss of retrieval quality. Recent works identify such a
defect, and propose to minimize the retrieval loss through contrastive
learning. However, these methods intensively rely on queries with ground-truth
documents, whose performance is limited by the insufficiency of labeled data.
In this paper, we propose Distill-VQ, which unifies the learning of IVF and
PQ within a knowledge distillation framework. In Distill-VQ, the dense
embeddings are leveraged as "teachers", which predict the query's relevance to
the sampled documents. The VQ modules are treated as the "students", which are
learned to reproduce the predicted relevance, such that the reconstructed
embeddings may fully preserve the retrieval result of the dense embeddings. By
doing so, Distill-VQ is able to derive substantial training signals from the
massive unlabeled data, which significantly contributes to the retrieval
quality. We perform comprehensive explorations for the optimal conduct of
knowledge distillation, which may provide useful insights for the learning of
VQ based ANN index. We also experimentally show that the labeled data is no
longer a necessity for high-quality vector quantization, which indicates
Distill-VQ's strong applicability in practice.
- Abstract(参考訳): Inverted File System(IVF)やProduct Quantization(PQ)のようなベクトル量子化(VQ)ベースのANNインデックスは、競合時間とメモリ効率のおかげで、埋め込みベースの文書検索に広く適用されている。
元々、VQは再構成損失、すなわち量子化後の元の密埋め込みと再構成埋め込みの間の歪みを最小化するために学習される。
残念なことに,このような目的は,検索品質が著しく低下する可能性のある入力クエリに対して,基幹文書を選択するという目標と矛盾しない。
近年の研究では,このような欠陥を識別し,コントラスト学習による検索損失を最小限に抑えることを提案する。
しかし、これらの手法は、ラベル付きデータの不足によって性能が制限される基底文書によるクエリに強く依存している。
本稿では, 知識蒸留フレームワークにおけるIVFとPQの学習を統一するDistill-VQを提案する。
Distill-VQでは、濃密な埋め込みを「教師」として利用し、クエリがサンプル文書との関連性を予測する。
VQモジュールは、予測された関連性を再現するために学習された「学生」として扱われ、再構成された埋め込みは密埋め込みの検索結果を完全に保存する。
これにより、蒸留vqは大量のラベルのないデータからかなりのトレーニング信号を導き出すことができ、検索品質に大きく寄与する。
我々は,vqベースの ann 指標の学習に有用な知見を提供する知識蒸留の最適実行のための包括的探索を行う。
また、ラベル付きデータはもはや高品質なベクトル量子化には必要ないことを示し、これは実際にDistill-VQの強い適用性を示している。
関連論文リスト
- HyperVQ: MLR-based Vector Quantization in Hyperbolic Space [56.4245885674567]
ベクトル量子化(HyperVQ)における双曲空間の利用について検討する。
本稿では,高VQが識別タスクにおいてVQを上回り,高度に絡み合った潜在空間を学習しながら,再建作業や生成作業において相容れない性能を発揮することを示す。
論文 参考訳(メタデータ) (2024-03-18T03:17:08Z) - LL-VQ-VAE: Learnable Lattice Vector-Quantization For Efficient
Representations [0.0]
学習可能な格子ベクトル量子化を導入し、離散表現の学習に有効であることを示す。
LL-VQ-VAEと呼ばれるこの手法は、VQ-VAEのベクトル量子化層を格子ベースの離散化に置き換える。
VQ-VAEと比較して、同じトレーニング条件下での低い再構成誤差、短時間のトレーニング、一定数のパラメータで得られる。
論文 参考訳(メタデータ) (2023-10-13T20:03:18Z) - Distillation Improves Visual Place Recognition for Low-Quality Queries [11.383202263053379]
クエリ画像やビデオをサーバにストリーミングして視覚的位置認識を行うと、解像度が低下したり、量子化が増大する。
本稿では、ディープラーニングに基づくVPRのための優れた特徴表現を抽出するために、訓練中のみ高品質なクエリを使用する方法を提案する。
実験結果に示すように、低品質なクエリよりも顕著なVPRリコール率の向上を実現している。
論文 参考訳(メタデータ) (2023-10-10T18:03:29Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Questions Are All You Need to Train a Dense Passage Retriever [123.13872383489172]
ARTは、ラベル付きトレーニングデータを必要としない高密度検索モデルをトレーニングするための、新しいコーパスレベルのオートエンコーディングアプローチである。
そこで,(1) 入力質問を用いて証拠文書の集合を検索し,(2) 文書を用いて元の質問を再構築する確率を計算する。
論文 参考訳(メタデータ) (2022-06-21T18:16:31Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。