論文の概要: Experimental Analysis of Large-scale Learnable Vector Storage
Compression
- arxiv url: http://arxiv.org/abs/2311.15578v2
- Date: Tue, 13 Feb 2024 09:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 19:07:59.777288
- Title: Experimental Analysis of Large-scale Learnable Vector Storage
Compression
- Title(参考訳): 大規模学習可能なベクトル記憶圧縮の実験的解析
- Authors: Hailin Zhang, Penghao Zhao, Xupeng Miao, Yingxia Shao, Zirui Liu, Tong
Yang, Bin Cui
- Abstract要約: 学習可能な埋め込みベクトルは、機械学習において最も重要な応用の1つである。
推薦タスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルのメモリ消費を増大させる。
近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。
- 参考スコア(独自算出の注目度): 42.52474894105165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learnable embedding vector is one of the most important applications in
machine learning, and is widely used in various database-related domains.
However, the high dimensionality of sparse data in recommendation tasks and the
huge volume of corpus in retrieval-related tasks lead to a large memory
consumption of the embedding table, which poses a great challenge to the
training and deployment of models. Recent research has proposed various methods
to compress the embeddings at the cost of a slight decrease in model quality or
the introduction of other overheads. Nevertheless, the relative performance of
these methods remains unclear. Existing experimental comparisons only cover a
subset of these methods and focus on limited metrics. In this paper, we perform
a comprehensive comparative analysis and experimental evaluation of embedding
compression. We introduce a new taxonomy that categorizes these techniques
based on their characteristics and methodologies, and further develop a modular
benchmarking framework that integrates 14 representative methods. Under a
uniform test environment, our benchmark fairly evaluates each approach,
presents their strengths and weaknesses under different memory budgets, and
recommends the best method based on the use case. In addition to providing
useful guidelines, our study also uncovers the limitations of current methods
and suggests potential directions for future research.
- Abstract(参考訳): 学習可能な埋め込みベクトルは機械学習において最も重要なアプリケーションの一つであり、様々なデータベース関連ドメインで広く使われている。
しかし、レコメンデーションタスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルの大規模なメモリ消費につながるため、モデルのトレーニングと展開に大きな課題が生じる。
近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。
しかしながら、これらの方法の相対的な性能はいまだに不明である。
既存の実験的な比較は、これらのメソッドのサブセットのみをカバーし、限られたメトリクスにフォーカスする。
本稿では,埋め込み圧縮の包括的比較分析と実験的評価を行う。
我々は,これらの手法を特徴と方法論に基づいて分類する新しい分類法を紹介し,14の代表的な手法を統合するモジュラーベンチマークフレームワークを更に開発する。
統一的なテスト環境では、ベンチマークはそれぞれのアプローチをかなり評価し、異なるメモリ予算の下でその強みと弱みを示し、ユースケースに基づいて最適なメソッドを推奨します。
有用なガイドラインの提供に加えて,現在の方法の限界を明らかにし,今後の研究の方向性を示唆する。
関連論文リスト
- Preview-based Category Contrastive Learning for Knowledge Distillation [53.551002781828146]
知識蒸留(PCKD)のための新しい予見型カテゴリーコントラスト学習法を提案する。
まず、インスタンスレベルの特徴対応と、インスタンスの特徴とカテゴリ中心の関係の両方の構造的知識を蒸留する。
カテゴリ表現を明示的に最適化し、インスタンスとカテゴリの表現を明確に関連付けることができる。
論文 参考訳(メタデータ) (2024-10-18T03:31:00Z) - Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。
埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。
ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-07-03T13:44:20Z) - When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。
埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。
本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文 参考訳(メタデータ) (2024-06-11T18:13:46Z) - A Large-Scale Neutral Comparison Study of Survival Models on Low-Dimensional Data [7.199059106376138]
この研究は、単一イベント、右検閲、低次元生存データに焦点を当てた最初の大規模な中性ベンチマーク実験を示す。
我々は、32の公開データセット上で、古典的な統計的アプローチから多くの一般的な機械学習手法まで、18のモデルをベンチマークした。
論文 参考訳(メタデータ) (2024-06-06T14:13:38Z) - Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in
Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。
我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文 参考訳(メタデータ) (2023-11-16T10:42:58Z) - Diffusion-based Visual Counterfactual Explanations -- Towards Systematic
Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。
評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。
本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文 参考訳(メタデータ) (2023-08-11T12:22:37Z) - On the role of benchmarking data sets and simulations in method
comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。
混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文 参考訳(メタデータ) (2022-08-02T13:47:53Z) - A Typology for Exploring the Mitigation of Shortcut Behavior [29.38025128165229]
基本モジュールの共通集合を確立することにより,様々なXIL手法を単一型に統一する。
評価では、全ての手法がモデルの再検討を成功に導く。
しかし、個々のベンチマークタスクに顕著な違いが見られ、アプリケーションに関連する重要な側面が明らかになりました。
論文 参考訳(メタデータ) (2022-03-04T14:16:50Z) - Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。
線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文 参考訳(メタデータ) (2020-05-08T05:09:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。