論文の概要: Lightweight Correlation-Aware Table Compression
- arxiv url: http://arxiv.org/abs/2410.14066v3
- Date: Thu, 24 Oct 2024 13:28:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:48:32.548516
- Title: Lightweight Correlation-Aware Table Compression
- Title(参考訳): 軽量相関対応テーブル圧縮
- Authors: Mihail Stoian, Alexander van Renen, Jan Kobiolka, Ping-Lin Kuo, Josif Grabocka, Andreas Kipf,
- Abstract要約: $texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
- 参考スコア(独自算出の注目度): 58.50312417249682
- License:
- Abstract: The growing adoption of data lakes for managing relational data necessitates efficient, open storage formats that provide high scan performance and competitive compression ratios. While existing formats achieve fast scans through lightweight encoding techniques, they have reached a plateau in terms of minimizing storage footprint. Recently, correlation-aware compression schemes have been shown to reduce file sizes further. Yet, current approaches either incur significant scan overheads or require manual specification of correlations, limiting their practicability. We present $\texttt{Virtual}$, a framework that integrates seamlessly with existing open formats to automatically leverage data correlations, achieving substantial compression gains while having minimal scan performance overhead. Experiments on data-gov datasets show that $\texttt{Virtual}$ reduces file sizes by up to 40% compared to Apache Parquet.
- Abstract(参考訳): リレーショナルデータ管理のためのデータレイクの採用の増加は、高いスキャン性能と競争力のある圧縮比を提供する、効率的でオープンなストレージフォーマットを必要とする。
既存のフォーマットは、軽量なエンコーディング技術によって高速なスキャンを実現するが、ストレージフットプリントの最小化という意味では、高水準に達している。
近年,ファイルサイズをさらに削減する相関対応圧縮方式が示されている。
しかし、現在のアプローチでは、大きなスキャンオーバーヘッドを発生させるか、あるいは相関のマニュアル仕様を必要とするため、実践性は制限されている。
このフレームワークは、既存のオープンフォーマットとシームレスに統合し、データ相関を自動的に活用し、スキャン性能のオーバーヘッドを最小限に抑えながら、実質的な圧縮ゲインを達成する。
data-govデータセットの実験によると、$\texttt{Virtual}$はApache Parquetと比較してファイルサイズを最大40%削減する。
関連論文リスト
- LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - End-to-end learned Lossy Dynamic Point Cloud Attribute Compression [5.717288278431968]
本研究では、エンドツーエンドの動的損失属性符号化手法を提案する。
我々は、遅延テンソルをビットストリームに符号化する自動回帰コンテキストモデルとともに、従来の潜時空間を利用するコンテキストモデルを用いる。
論文 参考訳(メタデータ) (2024-08-20T09:06:59Z) - Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。
本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T07:48:00Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - Data-Aware Gradient Compression for DML in Communication-Constrained Mobile Computing [20.70238092277094]
この研究は、分散機械学習の非一様圧縮による収束率を導出する。
本稿では,大規模データボリュームを扱う作業者に対して,保守的な圧縮を割り当てるDAGC-Rを提案する。
我々の実験は、DAGC-AとDAGC-Rがそれぞれ16.65%と25.43%の速さでトレーニング速度を向上できることを確認した。
論文 参考訳(メタデータ) (2023-11-13T13:24:09Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文 参考訳(メタデータ) (2023-02-07T18:55:28Z) - Scalable Hybrid Learning Techniques for Scientific Data Compression [6.803722400888276]
科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする
本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-12-21T03:00:18Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。