論文の概要: Lightweight Correlation-Aware Table Compression
- arxiv url: http://arxiv.org/abs/2410.14066v1
- Date: Thu, 17 Oct 2024 22:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:23:56.101311
- Title: Lightweight Correlation-Aware Table Compression
- Title(参考訳): 軽量相関対応テーブル圧縮
- Authors: Mihail Stoian, Alexander van Renen, Jan Kobiolka, Ping-Lin Kuo, Josif Grabocka, Andreas Kipf,
- Abstract要約: $texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。
実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
- 参考スコア(独自算出の注目度): 58.50312417249682
- License:
- Abstract: The growing adoption of data lakes for managing relational data necessitates efficient, open storage formats that provide high scan performance and competitive compression ratios. While existing formats achieve fast scans through lightweight encoding techniques, they have reached a plateau in terms of minimizing storage footprint. Recently, correlation-aware compression schemes have been shown to reduce file sizes further. Yet, current approaches either incur significant scan overheads or require manual specification of correlations, limiting their practicability. We present $\texttt{Virtual}$, a framework that integrates seamlessly with existing open formats to automatically leverage data correlations, achieving substantial compression gains while having minimal scan performance overhead. Experiments on $\texttt{data.gov}$ datasets show that $\texttt{Virtual}$ reduces file sizes by up to 40% compared to Apache Parquet.
- Abstract(参考訳): リレーショナルデータ管理のためのデータレイクの採用の増加は、高いスキャン性能と競争力のある圧縮比を提供する、効率的でオープンなストレージフォーマットを必要とする。
既存のフォーマットは、軽量なエンコーディング技術によって高速なスキャンを実現するが、ストレージフットプリントの最小化という意味では、高水準に達している。
近年,ファイルサイズをさらに削減する相関対応圧縮方式が示されている。
しかし、現在のアプローチでは、大きなスキャンオーバーヘッドを発生させるか、あるいは相関のマニュアル仕様を必要とするため、実践性は制限されている。
このフレームワークは、既存のオープンフォーマットとシームレスに統合し、データ相関を自動的に活用し、スキャン性能のオーバーヘッドを最小限に抑えながら、実質的な圧縮ゲインを達成する。
$\texttt{data.gov}$データセットの実験によると、$\texttt{Virtual}$はApache Parquetと比較してファイルサイズを最大40%削減する。
関連論文リスト
- Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。
API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-07-02T08:17:00Z) - Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。
本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文 参考訳(メタデータ) (2024-05-23T07:48:00Z) - LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。
我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。
提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:56Z) - 3D Point Cloud Compression with Recurrent Neural Network and Image
Compression Methods [0.0]
多くのAVアプリケーションでは、LiDARポイントクラウドデータの保存と送信が不可欠である。
データの幅と秩序のない構造のため、ポイントクラウドデータを低ボリュームに圧縮することは困難である。
圧縮アルゴリズムが空間相関を効率的に活用できる新しい3D-to-2D変換を提案する。
論文 参考訳(メタデータ) (2024-02-18T19:08:19Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。
ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。
ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文 参考訳(メタデータ) (2023-02-07T18:55:28Z) - DoCoFL: Downlink Compression for Cross-Device Federated Learning [12.363097878376644]
$textsfDoCoFL$はデバイス間設定でダウンリンク圧縮を行う新しいフレームワークである。
圧縮なしでベースラインと競合する精度を保ちながら、双方向の帯域幅を大幅に削減する。
論文 参考訳(メタデータ) (2023-02-01T16:08:54Z) - Scalable Hybrid Learning Techniques for Scientific Data Compression [6.803722400888276]
科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする
本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
論文 参考訳(メタデータ) (2022-12-21T03:00:18Z) - Deep Lossy Plus Residual Coding for Lossless and Near-lossless Image
Compression [85.93207826513192]
本稿では、損失のない画像圧縮とほぼロスレス画像圧縮の両面において、統合された強力な深い損失+残差(DLPR)符号化フレームワークを提案する。
VAEのアプローチにおける連立損失と残留圧縮の問題を解く。
ほぼロスレスモードでは、元の残差を量子化し、与えられた$ell_infty$エラー境界を満たす。
論文 参考訳(メタデータ) (2022-09-11T12:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。