論文の概要: Experimental Analysis of Large-scale Learnable Vector Storage
Compression
- arxiv url: http://arxiv.org/abs/2311.15578v2
- Date: Tue, 13 Feb 2024 09:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:07:59.777288
- Title: Experimental Analysis of Large-scale Learnable Vector Storage
Compression
- Title(参考訳): 大規模学習可能なベクトル記憶圧縮の実験的解析
- Authors: Hailin Zhang, Penghao Zhao, Xupeng Miao, Yingxia Shao, Zirui Liu, Tong
Yang, Bin Cui
- Abstract要約: 学習可能な埋め込みベクトルは、機械学習において最も重要な応用の1つである。
推薦タスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルのメモリ消費を増大させる。
近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。
- 参考スコア(独自算出の注目度): 42.52474894105165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learnable embedding vector is one of the most important applications in
machine learning, and is widely used in various database-related domains.
However, the high dimensionality of sparse data in recommendation tasks and the
huge volume of corpus in retrieval-related tasks lead to a large memory
consumption of the embedding table, which poses a great challenge to the
training and deployment of models. Recent research has proposed various methods
to compress the embeddings at the cost of a slight decrease in model quality or
the introduction of other overheads. Nevertheless, the relative performance of
these methods remains unclear. Existing experimental comparisons only cover a
subset of these methods and focus on limited metrics. In this paper, we perform
a comprehensive comparative analysis and experimental evaluation of embedding
compression. We introduce a new taxonomy that categorizes these techniques
based on their characteristics and methodologies, and further develop a modular
benchmarking framework that integrates 14 representative methods. Under a
uniform test environment, our benchmark fairly evaluates each approach,
presents their strengths and weaknesses under different memory budgets, and
recommends the best method based on the use case. In addition to providing
useful guidelines, our study also uncovers the limitations of current methods
and suggests potential directions for future research.
- Abstract(参考訳): 学習可能な埋め込みベクトルは機械学習において最も重要なアプリケーションの一つであり、様々なデータベース関連ドメインで広く使われている。
しかし、レコメンデーションタスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルの大規模なメモリ消費につながるため、モデルのトレーニングと展開に大きな課題が生じる。
近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。
しかしながら、これらの方法の相対的な性能はいまだに不明である。
既存の実験的な比較は、これらのメソッドのサブセットのみをカバーし、限られたメトリクスにフォーカスする。
本稿では,埋め込み圧縮の包括的比較分析と実験的評価を行う。
我々は,これらの手法を特徴と方法論に基づいて分類する新しい分類法を紹介し,14の代表的な手法を統合するモジュラーベンチマークフレームワークを更に開発する。
統一的なテスト環境では、ベンチマークはそれぞれのアプローチをかなり評価し、異なるメモリ予算の下でその強みと弱みを示し、ユースケースに基づいて最適なメソッドを推奨します。
有用なガイドラインの提供に加えて,現在の方法の限界を明らかにし,今後の研究の方向性を示唆する。
関連論文リスト
- Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - On the role of benchmarking data sets and simulations in method
comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。
混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文 参考訳(メタデータ) (2022-08-02T13:47:53Z) - DC-BENCH: Dataset Condensation Benchmark [79.18718490863908]
この研究は、データセットの凝縮に関する最初の大規模標準ベンチマークを提供する。
それは、凝縮法の生成可能性と有効性を包括的に反映する一連の評価から成り立っている。
ベンチマークライブラリは、将来の研究とアプリケーションを容易にするためにオープンソース化されている。
論文 参考訳(メタデータ) (2022-07-20T03:54:05Z) - A Typology for Exploring the Mitigation of Shortcut Behavior [29.38025128165229]
基本モジュールの共通集合を確立することにより,様々なXIL手法を単一型に統一する。
評価では、全ての手法がモデルの再検討を成功に導く。
しかし、個々のベンチマークタスクに顕著な違いが見られ、アプリケーションに関連する重要な側面が明らかになりました。
論文 参考訳(メタデータ) (2022-03-04T14:16:50Z) - A Survey on Deep Semi-supervised Learning [51.26862262550445]
まず,既存の手法を分類した深層半指導学習の分類法を提案する。
次に、損失の種類、貢献度、アーキテクチャの違いの観点から、これらのメソッドを詳細に比較します。
論文 参考訳(メタデータ) (2021-02-28T16:22:58Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。