Fugu-MT 論文翻訳(概要): Experimental Analysis of Large-scale Learnable Vector Storage Compression

論文の概要: Experimental Analysis of Large-scale Learnable Vector Storage Compression

arxiv url: http://arxiv.org/abs/2311.15578v2
Date: Tue, 13 Feb 2024 09:38:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 19:07:59.777288
Title: Experimental Analysis of Large-scale Learnable Vector Storage Compression
Title（参考訳）: 大規模学習可能なベクトル記憶圧縮の実験的解析
Authors: Hailin Zhang, Penghao Zhao, Xupeng Miao, Yingxia Shao, Zirui Liu, Tong Yang, Bin Cui
Abstract要約: 学習可能な埋め込みベクトルは、機械学習において最も重要な応用の1つである。推薦タスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルのメモリ消費を増大させる。近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。
参考スコア（独自算出の注目度）: 42.52474894105165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learnable embedding vector is one of the most important applications in machine learning, and is widely used in various database-related domains. However, the high dimensionality of sparse data in recommendation tasks and the huge volume of corpus in retrieval-related tasks lead to a large memory consumption of the embedding table, which poses a great challenge to the training and deployment of models. Recent research has proposed various methods to compress the embeddings at the cost of a slight decrease in model quality or the introduction of other overheads. Nevertheless, the relative performance of these methods remains unclear. Existing experimental comparisons only cover a subset of these methods and focus on limited metrics. In this paper, we perform a comprehensive comparative analysis and experimental evaluation of embedding compression. We introduce a new taxonomy that categorizes these techniques based on their characteristics and methodologies, and further develop a modular benchmarking framework that integrates 14 representative methods. Under a uniform test environment, our benchmark fairly evaluates each approach, presents their strengths and weaknesses under different memory budgets, and recommends the best method based on the use case. In addition to providing useful guidelines, our study also uncovers the limitations of current methods and suggests potential directions for future research.
Abstract（参考訳）: 学習可能な埋め込みベクトルは機械学習において最も重要なアプリケーションの一つであり、様々なデータベース関連ドメインで広く使われている。しかし、レコメンデーションタスクにおけるスパースデータの高次元性と検索関連タスクにおける大量のコーパスは、埋め込みテーブルの大規模なメモリ消費につながるため、モデルのトレーニングと展開に大きな課題が生じる。近年の研究では, モデル品質の低下や, その他のオーバーヘッドを伴って, 埋め込みを圧縮する方法が提案されている。しかしながら、これらの方法の相対的な性能はいまだに不明である。既存の実験的な比較は、これらのメソッドのサブセットのみをカバーし、限られたメトリクスにフォーカスする。本稿では,埋め込み圧縮の包括的比較分析と実験的評価を行う。我々は,これらの手法を特徴と方法論に基づいて分類する新しい分類法を紹介し,14の代表的な手法を統合するモジュラーベンチマークフレームワークを更に開発する。統一的なテスト環境では、ベンチマークはそれぞれのアプローチをかなり評価し、異なるメモリ予算の下でその強みと弱みを示し、ユースケースに基づいて最適なメソッドを推奨します。有用なガイドラインの提供に加えて,現在の方法の限界を明らかにし,今後の研究の方向性を示唆する。

関連論文リスト

A Cooperative Game-Based Multi-Criteria Weighted Ensemble Approach for Multi-Class Classification [0.0]
機械学習アルゴリズムはOpen-ML-CC18データセットに適用され、既存のアンサンブル重み付け手法と比較された。実験の結果, 他の重み付け法と比較して優れた性能を示した。
論文参考訳（メタデータ） (2025-08-09T07:50:49Z)
Comparing Generative Models with the New Physics Learning Machine [0.0]
大規模かつ高次元のレシエーションでは、機械学習は標準的な統計技術の限界を超える一連のツールを提供する。この主張は、高エネルギー物理文献であるニュー物理学習マシン(New Physics Learning Machine)から、分類に基づく2サンプルテストを行うための提案を比較して、この主張を裏付けるものである。本稿では,本手法の効率トレードオフと,学習に基づくアプローチの導入による計算コストについて述べる。
論文参考訳（メタデータ） (2025-08-04T10:42:52Z)
A Coreset Selection of Coreset Selection Literature: Introduction and Recent Advances [8.319613769928331]
コアセットの選択は、機械学習に不可欠なパターンを保存する大規模なデータセットの、小さくて代表的なサブセットを見つけるという課題を目標としている。この調査は、コアセット研究の3つの主要な行を単一の分類にまとめることで、より包括的な見解を示す。提案するサブフィールドは,部分モジュラー定式化や双レベル最適化,ラベルなしデータセットの擬似ラベル化の最近の進歩など,既存の研究によって見落とされがちである。
論文参考訳（メタデータ） (2025-05-23T12:18:34Z)
Time Series Embedding Methods for Classification Tasks: A Review [2.8084422332394428]
本稿では,機械学習およびディープラーニングモデルにおける効率的な表現のための時系列埋め込み手法の総合的なレビューと評価を行う。埋め込み技術の分類を導入し,それらの理論的基礎と応用状況に基づいて分類する。実験の結果,組込み手法の性能は,使用するデータセットや分類アルゴリズムによって大きく異なることがわかった。
論文参考訳（メタデータ） (2025-01-23T05:24:45Z)
Preview-based Category Contrastive Learning for Knowledge Distillation [53.551002781828146]
知識蒸留(PCKD)のための新しい予見型カテゴリーコントラスト学習法を提案する。まず、インスタンスレベルの特徴対応と、インスタンスの特徴とカテゴリ中心の関係の両方の構造的知識を蒸留する。カテゴリ表現を明示的に最適化し、インスタンスとカテゴリの表現を明確に関連付けることができる。
論文参考訳（メタデータ） (2024-10-18T03:31:00Z)
Anti-Collapse Loss for Deep Metric Learning Based on Coding Rate Metric [99.19559537966538]
DMLは、分類、クラスタリング、検索といった下流タスクのための識別可能な高次元埋め込み空間を学習することを目的としている。埋め込み空間の構造を維持し,特徴の崩壊を避けるために,反崩壊損失と呼ばれる新しい損失関数を提案する。ベンチマークデータセットの総合実験により,提案手法が既存の最先端手法より優れていることを示す。
論文参考訳（メタデータ） (2024-07-03T13:44:20Z)
When is an Embedding Model More Promising than Another? [33.540506562970776]
埋め込みは機械学習において中心的な役割を担い、あらゆるオブジェクトを数値表現に投影し、様々な下流タスクを実行するために利用することができる。埋め込みモデルの評価は一般にドメイン固有の経験的アプローチに依存する。本稿では, 組込み器の評価を統一的に行い, 充足性と情報性の概念を考察する。
論文参考訳（メタデータ） (2024-06-11T18:13:46Z)
A Large-Scale Neutral Comparison Study of Survival Models on Low-Dimensional Data [7.199059106376138]
この研究は、単一イベント、右検閲、低次元生存データに焦点を当てた最初の大規模な中性ベンチマーク実験を示す。我々は、32の公開データセット上で、古典的な統計的アプローチから多くの一般的な機械学習手法まで、18のモデルをベンチマークした。
論文参考訳（メタデータ） (2024-06-06T14:13:38Z)
Back to Basics: A Simple Recipe for Improving Out-of-Domain Retrieval in Dense Encoders [63.28408887247742]
得られたモデルにおいて,より優れた一般化能力を得るために,トレーニング手順の改善が可能であるかを検討する。我々は、高密度エンコーダをトレーニングするための簡単なレシピを推奨する: LoRAのようなパラメータ効率のよいMSMARCOのトレーニング。
論文参考訳（メタデータ） (2023-11-16T10:42:58Z)
Diffusion-based Visual Counterfactual Explanations -- Towards Systematic Quantitative Evaluation [64.0476282000118]
視覚的対物的説明法(VCE)の最新手法は、深い生成モデルの力を利用して、印象的な画質の高次元画像の新しい例を合成する。評価手順が大きく異なり,個々の実例の視覚検査や小規模なユーザスタディなど,これらのVCE手法の性能を比較することは,現時点では困難である。本稿では,VCE手法の体系的,定量的評価のためのフレームワークと,使用する指標の最小セットを提案する。
論文参考訳（メタデータ） (2023-08-11T12:22:37Z)
On the role of benchmarking data sets and simulations in method comparison studies [0.0]
本稿では,シミュレーション研究とベンチマーク研究の相違点と類似点について検討する。混合手法研究や臨床シナリオ評価など,さまざまな文脈からアイデアを借りる。
論文参考訳（メタデータ） (2022-08-02T13:47:53Z)
A Typology for Exploring the Mitigation of Shortcut Behavior [29.38025128165229]
基本モジュールの共通集合を確立することにより,様々なXIL手法を単一型に統一する。評価では、全ての手法がモデルの再検討を成功に導く。しかし、個々のベンチマークタスクに顕著な違いが見られ、アプリケーションに関連する重要な側面が明らかになりました。
論文参考訳（メタデータ） (2022-03-04T14:16:50Z)
Compressing Large Sample Data for Discriminant Analysis [78.12073412066698]
判別分析フレームワーク内での大きなサンプルサイズに起因する計算問題を考察する。線形および二次判別分析のためのトレーニングサンプル数を削減するための新しい圧縮手法を提案する。
論文参考訳（メタデータ） (2020-05-08T05:09:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。