論文の概要: dreaMLearning: Data Compression Assisted Machine Learning
- arxiv url: http://arxiv.org/abs/2506.22190v1
- Date: Fri, 27 Jun 2025 12:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.206197
- Title: dreaMLearning: Data Compression Assisted Machine Learning
- Title(参考訳): dreaMLearning: データ圧縮支援機械学習
- Authors: Xiaobo Zhao, Aaron Hurst, Panagiotis Karras, Daniel E. Lucani,
- Abstract要約: 本稿では,圧縮データからの学習を非圧縮で行えるフレームワークであるdreaMLearningを紹介する。
実験によると、dreaMLearningはトレーニングを最大8.8倍加速し、メモリ使用量を10倍削減し、ストレージを42%削減する。
これらの進歩は、分散学習やフェデレーション学習、リソース制約エッジデバイスでの微小MLなど、多様なMLアプリケーションを強化する。
- 参考スコア(独自算出の注目度): 12.875773186735396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid advancements, machine learning, particularly deep learning, is hindered by the need for large amounts of labeled data to learn meaningful patterns without overfitting and immense demands for computation and storage, which motivate research into architectures that can achieve good performance with fewer resources. This paper introduces dreaMLearning, a novel framework that enables learning from compressed data without decompression, built upon Entropy-based Generalized Deduplication (EntroGeDe), an entropy-driven lossless compression method that consolidates information into a compact set of representative samples. DreaMLearning accommodates a wide range of data types, tasks, and model architectures. Extensive experiments on regression and classification tasks with tabular and image data demonstrate that dreaMLearning accelerates training by up to 8.8x, reduces memory usage by 10x, and cuts storage by 42%, with a minimal impact on model performance. These advancements enhance diverse ML applications, including distributed and federated learning, and tinyML on resource-constrained edge devices, unlocking new possibilities for efficient and scalable learning.
- Abstract(参考訳): 急速な進歩にもかかわらず、機械学習、特にディープラーニングは、過度に適合することなく意味のあるパターンを学習する大量のラベル付きデータや、少ないリソースで優れたパフォーマンスを達成するアーキテクチャの研究の動機となる計算と記憶の膨大な要求によって妨げられている。
本稿では,エントロピーをベースとした汎用デデュース(EntroGeDe)に基づく,圧縮データからの学習を可能にする新しいフレームワークであるdreaMLearningを紹介する。
DreaMLearningは、幅広いデータタイプ、タスク、モデルアーキテクチャに対応している。
dreaMLearningは最大8.8倍のトレーニングを加速し、メモリ使用量を10倍に削減し、ストレージを42%削減し、モデルのパフォーマンスに最小限の影響を与える。
これらの進歩は、分散学習やフェデレーション学習、リソース制約のあるエッジデバイス上の微小MLなど、多様なMLアプリケーションを強化し、効率的でスケーラブルな学習のための新たな可能性の解放を可能にしている。
関連論文リスト
- MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。
この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。
MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文 参考訳(メタデータ) (2025-06-09T16:16:50Z) - Flyweight FLIM Networks for Salient Object Detection in Biomedical Images [42.763966145188625]
本研究では,FLIMネットワークのバックプロパゲーションを伴わない拡張分離型畳み込みカーネルと多層拡散層を学習する手法を提案する。
また,カーネル冗長性とエンコーダサイズを低減するため,新しいネットワーク単純化手法を提案する。
論文 参考訳(メタデータ) (2025-04-15T11:57:40Z) - Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis [0.0]
材料科学における機械学習は、限られた実験データのために困難に直面している。
大規模言語モデル(LLM)を用いて機械学習の性能を向上させる戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T16:04:01Z) - Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - Bullion: A Column Store for Machine Learning [4.096087402737292]
本稿では,機械学習処理に適した列記憶システムであるBullionについて述べる。
Bundyはデータコンプライアンスの複雑さに対処し、長いシーケンススパース機能のエンコーディングを最適化し、拡張可能なプロジェクションを効率的に管理し、ストレージに機能量子化を導入し、包括的なカスケードエンコーディングフレームワークを提供する。
予備的な実験結果と理論的分析は、機械学習ワークロードのユニークな要求に直面して、Bullionが強力なパフォーマンスを提供する能力が改善されたことを示している。
論文 参考訳(メタデータ) (2024-04-13T05:01:54Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。