論文の概要: Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity
- arxiv url: http://arxiv.org/abs/2502.13063v1
- Date: Tue, 18 Feb 2025 17:08:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:21.048715
- Title: Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity
- Title(参考訳): 宇宙の容量の限界を探索する1568個のタオルを1つのベクトルにまとめて振り返る(動画)
- Authors: Yuri Kuratov, Mikhail Arkhipov, Aydar Bulatov, Mikhail Burtsev,
- Abstract要約: エンコーダをサンプルごとの最適化手順に置き換えることで圧縮の限界を示す。
我々は、圧縮限界が入力の長さではなく、減少する不確実性の量によって決定されることを実証的に示す。
- 参考スコア(独自算出の注目度): 5.087492669838185
- License:
- Abstract: A range of recent works addresses the problem of compression of sequence of tokens into a shorter sequence of real-valued vectors to be used as inputs instead of token embeddings or key-value cache. These approaches allow to reduce the amount of compute in existing language models. Despite relying on powerful models as encoders, the maximum attainable lossless compression ratio is typically not higher than x10. This fact is highly intriguing because, in theory, the maximum information capacity of large real-valued vectors is far beyond the presented rates even for 16-bit precision and a modest vector size. In this work, we explore the limits of compression by replacing the encoder with a per-sample optimization procedure. We show that vectors with compression ratios up to x1500 exist, which highlights two orders of magnitude gap between existing and practically attainable solutions. Furthermore, we empirically show that the compression limits are determined not by the length of the input but by the amount of uncertainty to be reduced, namely, the cross-entropy loss on this sequence without any conditioning. The obtained limits highlight the substantial gap between the theoretical capacity of input embeddings and their practical utilization, suggesting significant room for optimization in model design.
- Abstract(参考訳): 最近の一連の研究は、トークンの埋め込みやキー値キャッシュの代わりに入力として使用される実数値ベクトルの短いシーケンスへのトークンのシーケンスの圧縮の問題に対処している。
これらのアプローチにより、既存の言語モデルにおける計算量を減らすことができる。
エンコーダとして強力なモデルに頼っているにもかかわらず、最大ロスレス圧縮比はx10よりは高くない。
この事実は非常に興味深いのは、理論上、大きな実数値ベクトルの最大情報容量が16ビット精度と控えめなベクトルサイズであっても提示される速度を超えているからである。
本研究では,エンコーダをサンプルごとの最適化手順に置き換えることで,圧縮の限界について検討する。
圧縮比が最大で x1500 となるベクトルが存在することを示す。
さらに, 圧縮限界は入力の長さではなく不確実性の量, すなわち, 条件のないシーケンス上のクロスエントロピー損失によって決定されることを示す。
得られた限界は、入力埋め込みの理論的能力と実用的利用との実質的なギャップを強調し、モデル設計における最適化のための重要な余地を示唆している。
関連論文リスト
- Compression for Better: A General and Stable Lossless Compression Framework [7.356622397575378]
主な課題は、モデル損失を最小限に抑えるために圧縮エラーを効果的に活用することである。
一般的なtextbfLosstextbfLess textbfCompression理論フレームワーク(textbfLLC)を提案する。
量子化や分解など,様々な圧縮手法を適用する。
論文 参考訳(メタデータ) (2024-12-09T09:55:54Z) - Rank Reduction Autoencoders -- Enhancing interpolation on nonlinear manifolds [3.180674374101366]
Rank Reduction Autoencoder (RRAE) は、拡張された潜在空間を持つオートエンコーダである。
2つの定式化(強式と弱式)が提示され、潜在空間を正確に表現する還元基底が構築される。
タスクに使用し、結果を他のオートエンコーダと比較することにより、この定式化の効率性を示す。
論文 参考訳(メタデータ) (2024-05-22T20:33:09Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM [37.87634266742105]
キーバリュー(KV)キャッシングは,大規模言語モデル(LLM)推論における生成速度を高速化するデファクトとなっている。
既存の方法は、重要でないトークンをドロップしたり、全てのエントリを均一に定量化することに依存している。
本稿では,高速なKVキャッシュ圧縮フレームワークであるGEARを提案する。
論文 参考訳(メタデータ) (2024-03-08T18:48:30Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - TensorCodec: Compact Lossy Compression of Tensors without Strong Data
Assumptions [22.937900567884796]
TENSORCODECは、必ずしも強い入力データ仮定に従わない一般的なテンソルに対する損失圧縮アルゴリズムである。
8つの実世界のデータセットの解析と実験は、TENSORCODECが(a)簡潔であることを示す。
圧縮速度は7.38倍で、同様のリコンストラクションエラーの最大のライバルである。
論文 参考訳(メタデータ) (2023-09-19T04:48:01Z) - Improving Dual-Encoder Training through Dynamic Indexes for Negative
Mining [61.09807522366773]
本稿では,ソフトマックスを証明可能な境界で近似し,木を動的に維持するアルゴリズムを提案する。
我々は,2000万以上のターゲットを持つデータセットについて検討し,オラクル・ブルート力負の鉱業に関して,誤差を半分に削減した。
論文 参考訳(メタデータ) (2023-03-27T15:18:32Z) - Shifted Compression Framework: Generalizations and Improvements [2.2147691173934967]
コミュニケーションは、大規模な機械学習モデルの分散トレーニングにおける重要なボトルネックの1つだ。
勾配やモデルのような交換された情報のロッシー圧縮は、この問題を緩和する最も効果的な手段の1つである。
論文 参考訳(メタデータ) (2022-06-21T15:00:04Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z) - OctSqueeze: Octree-Structured Entropy Model for LiDAR Compression [77.8842824702423]
本稿では,LiDAR点雲のメモリフットプリントを削減するための新しいディープ圧縮アルゴリズムを提案する。
本手法は,メモリフットプリントを低減するために,点間の間隔と構造的冗長性を利用する。
我々のアルゴリズムは、自動運転車などのアプリケーションにおいて、LiDARポイントのオンボードおよびオフボードストレージを減らすために使用できる。
論文 参考訳(メタデータ) (2020-05-14T17:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。