Fugu-MT 論文翻訳(概要): Lightweight Correlation-Aware Table Compression

論文の概要: Lightweight Correlation-Aware Table Compression

arxiv url: http://arxiv.org/abs/2410.14066v2
Date: Mon, 21 Oct 2024 07:50:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.250385
Title: Lightweight Correlation-Aware Table Compression
Title（参考訳）: 軽量相関対応テーブル圧縮
Authors: Mihail Stoian, Alexander van Renen, Jan Kobiolka, Ping-Lin Kuo, Josif Grabocka, Andreas Kipf,
Abstract要約: $texttVirtual$は、既存のオープンフォーマットとシームレスに統合されるフレームワークである。 data-govデータセットの実験によると、$texttVirtual$はApache Parquetと比較してファイルサイズを最大40%削減する。
参考スコア（独自算出の注目度）: 58.50312417249682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing adoption of data lakes for managing relational data necessitates efficient, open storage formats that provide high scan performance and competitive compression ratios. While existing formats achieve fast scans through lightweight encoding techniques, they have reached a plateau in terms of minimizing storage footprint. Recently, correlation-aware compression schemes have been shown to reduce file sizes further. Yet, current approaches either incur significant scan overheads or require manual specification of correlations, limiting their practicability. We present $\texttt{Virtual}$, a framework that integrates seamlessly with existing open formats to automatically leverage data correlations, achieving substantial compression gains while having minimal scan performance overhead. Experiments on data-gov datasets show that $\texttt{Virtual}$ reduces file sizes by up to 40% compared to Apache Parquet.
Abstract（参考訳）: リレーショナルデータ管理のためのデータレイクの採用の増加は、高いスキャン性能と競争力のある圧縮比を提供する、効率的でオープンなストレージフォーマットを必要とする。既存のフォーマットは、軽量なエンコーディング技術によって高速なスキャンを実現するが、ストレージフットプリントの最小化という意味では、高水準に達している。近年,ファイルサイズをさらに削減する相関対応圧縮方式が示されている。しかし、現在のアプローチでは、大きなスキャンオーバーヘッドを発生させるか、あるいは相関のマニュアル仕様を必要とするため、実践性は制限されている。このフレームワークは、既存のオープンフォーマットとシームレスに統合し、データ相関を自動的に活用し、スキャン性能のオーバーヘッドを最小限に抑えながら、実質的な圧縮ゲインを達成する。 data-govデータセットの実験によると、$\texttt{Virtual}$はApache Parquetと比較してファイルサイズを最大40%削減する。

関連論文リスト

Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation [49.48204107529758]
我々はトークンオーバーフローを、圧縮された表現が与えられたクエリに応答する十分な情報を含んでいない状態として定義する。本稿では,非圧縮トークン表現から,クエリ非依存の飽和統計を確実に分離することを見出した。クエリとコンテキストの両方のxRAG表現上の軽量なプローブ分類器は平均0.72 AUC-ROCでオーバーフローを検出する。これらの結果は、クエリ非依存の診断からクエリ対応検出まで進歩し、低コストのプレLLMゲーティングにより、圧縮によるエラーを軽減できる。
論文参考訳（メタデータ） (2026-02-12T18:15:08Z)
Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。 ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。 MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。 ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文参考訳（メタデータ） (2026-02-12T02:38:57Z)
VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。 VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文参考訳（メタデータ） (2025-11-24T07:07:58Z)
CoRECT: A Framework for Evaluating Embedding Compression Techniques at Scale [0.0]
CoRECTは埋め込み圧縮手法の大規模評価のためのフレームワークである。非学習圧縮は,最大100万パスにおいても,インデックスサイズを大幅に削減できることを示す。
論文参考訳（メタデータ） (2025-10-22T08:03:31Z)
CompactPrompt: A Unified Pipeline for Prompt Data Compression in LLM Workflows [0.9275065651255189]
大規模言語モデル(LLM)は強力な推論と生成能力を提供するが、かなりのランタイムコストを発生させる。我々は,高速なプロンプト圧縮と軽量なファイルレベルのデータ圧縮を融合したエンドツーエンドパイプラインであるCompactPromptを紹介する。
論文参考訳（メタデータ） (2025-10-20T19:31:11Z)
OjaKV: Context-Aware Online Low-Rank KV Cache Compression with Oja's Rule [54.37983890753086]
我々は,戦略的ハイブリッドストレージポリシとオンラインサブスペース適応を統合したフレームワークであるOjaKVを紹介する。 OjaKVは、重要かつ最新のトークンをフルランクで保存し、注意のために高忠実なアンカーを維持している。オンライン主成分分析のためのOjaのアルゴリズムを用いて、プロジェクションベースを漸進的に適応させることにより、低ランク圧縮を適用する。
論文参考訳（メタデータ） (2025-09-25T21:42:27Z)
ReCalKV: Low-Rank KV Cache Compression via Head Reordering and Offline Calibration [81.81027217759433]
大きな言語モデル(LLM)はキーバリュー(KV)キャッシュを保存するのに必要な過剰なメモリによって制約されることが多い。近年,KVキャッシュの隠蔽次元の低減について検討されている。本稿では,KVキャッシュの隠れ次元を削減した後学習KVキャッシュ圧縮手法ReCalKVを提案する。
論文参考訳（メタデータ） (2025-05-30T08:49:27Z)
Lossless Compression for LLM Tensor Incremental Snapshots [0.0]
私たちはLanguage Model(LMC)と呼ばれる効果的な圧縮ソリューションを構築します。 LMCの16コア並列実装は、それぞれ2.78 GiB/sと3.76 GiB/sの圧縮および減圧スループットを実現することができる。このパフォーマンスの向上は、最終的に必要なリソースを削減し、次のエポック前にデータをストレージシステムにコピーする時間を増やすことで、より高い周波数のチェックポイントを可能にします。
論文参考訳（メタデータ） (2025-05-14T21:24:14Z)
Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images [60.42768987736088]
蒸留と刈り取りの両文献の方法論を公平に評価するベンチマークを導入する。我々のベンチマークでは、大規模データセットの主流データセット蒸留設定において、ランダムに選択されたサブセットでさえ驚くほどの競争性能を達成できることが示されている。我々は、画像データのみを活用することに焦点を当てた、Prune, Combine, Augment(PCA)と呼ばれるデータセット圧縮のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T13:11:40Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
End-to-end learned Lossy Dynamic Point Cloud Attribute Compression [5.717288278431968]
本研究では、エンドツーエンドの動的損失属性符号化手法を提案する。我々は、遅延テンソルをビットストリームに符号化する自動回帰コンテキストモデルとともに、従来の潜時空間を利用するコンテキストモデルを用いる。
論文参考訳（メタデータ） (2024-08-20T09:06:59Z)
Concise and Precise Context Compression for Tool-Using Language Models [60.606281074373136]
ツールを用いた言語モデルにおいて,ツール文書を簡潔かつ高精度な要約シーケンスに圧縮する2つの手法を提案する。 API-BankとAPIBenchの結果,最大16倍の圧縮率で上行ベースラインに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-07-02T08:17:00Z)
Sparse $L^1$-Autoencoders for Scientific Data Compression [0.0]
L1$-regularizedの高次元ラテント空間を用いたオートエンコーダの開発により,効率的なデータ圧縮手法を提案する。本稿では,これらの情報に富む潜伏空間を用いて,ぼやけなどのアーティファクトを緩和し,科学的データに対する高効率なデータ圧縮手法を実現する方法について述べる。
論文参考訳（メタデータ） (2024-05-23T07:48:00Z)
LLMLingua-2: Data Distillation for Efficient and Faithful Task-Agnostic Prompt Compression [43.048684907893104]
本稿では, タスク非依存のプロンプト圧縮に着目し, 一般化性と効率性の向上を図る。我々は,プロンプト圧縮をトークン分類問題として定式化し,圧縮されたプロンプトが元のプロンプトに忠実であることを保証する。提案手法は, XLM-RoBERTa-large や mBERT などの小型モデルを用いて圧縮目標を明示的に学習することにより,低レイテンシを実現する。
論文参考訳（メタデータ） (2024-03-19T17:59:56Z)
Data-Aware Gradient Compression for FL in Communication-Constrained Mobile Computing [20.70238092277094]
モバイル環境におけるフェデレートラーニング(FL)は、重要なコミュニケーションボトルネックに直面している。ワンサイズ・フィット・オール圧縮アプローチは、ワーカ間でのさまざまなデータボリュームを考慮に入れない。本研究では,データ分布とボリュームが異なる作業者に対して,様々な圧縮比を提案する。
論文参考訳（メタデータ） (2023-11-13T13:24:09Z)
Learning Accurate Performance Predictors for Ultrafast Automated Model Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文参考訳（メタデータ） (2023-04-13T10:52:49Z)
ZipLM: Inference-Aware Structured Pruning of Language Models [56.52030193434863]
ZipLMと呼ばれる大規模言語モデル(LLM)に対する新しい構造化圧縮手法を提案する。 ZipLMは、所望のランタイムスピードアップのセットをマッチングしながら、最先端の精度-vs-スピードアップを実現する。 ZipLMはすべての設定で最先端の圧縮モデルを生成する。
論文参考訳（メタデータ） (2023-02-07T18:55:28Z)
DoCoFL: Downlink Compression for Cross-Device Federated Learning [12.363097878376644]
$textsfDoCoFL$はデバイス間設定でダウンリンク圧縮を行う新しいフレームワークである。圧縮なしでベースラインと競合する精度を保ちながら、双方向の帯域幅を大幅に削減する。
論文参考訳（メタデータ） (2023-02-01T16:08:54Z)
Scalable Hybrid Learning Techniques for Scientific Data Compression [6.803722400888276]
科学者は、抽出された興味の量(QoIs)を正確に保存する圧縮技術を必要とする本稿では,データ圧縮のためのエンドツーエンドでスケーラブルなGPUベースのパイプラインとして実装された物理インフォームド圧縮手法を提案する。
論文参考訳（メタデータ） (2022-12-21T03:00:18Z)
Dataset Condensation with Latent Space Knowledge Factorization and Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文参考訳（メタデータ） (2022-08-21T18:14:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。