論文の概要: The Energy-Throughput Trade-off in Lossless-Compressed Source Code Storage
- arxiv url: http://arxiv.org/abs/2601.13220v1
- Date: Mon, 19 Jan 2026 16:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.976351
- Title: The Energy-Throughput Trade-off in Lossless-Compressed Source Code Storage
- Title(参考訳): ロスレス圧縮ソースコードストレージにおける省エネルギートレードオフ
- Authors: Paolo Ferragina, Francesco Tosoni,
- Abstract要約: 大規模なソースコードアーカイブからデータを取得することは、AIトレーニング、ニューラルベースソフトウェア分析、情報検索に不可欠である。
本稿では,大規模なソースコードデータセットのインデックス化のための圧縮キー値ストアの設計と実験を行う。
- 参考スコア(独自算出の注目度): 1.580503301241636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving data from large-scale source code archives is vital for AI training, neural-based software analysis, and information retrieval, to cite a few. This paper studies and experiments with the design of a compressed key-value store for the indexing of large-scale source code datasets, evaluating its trade-off among three primary computational resources: (compressed) space occupancy, time, and energy efficiency. Extensive experiments on a national high-performance computing infrastructure demonstrate that different compression configurations yield distinct trade-offs, with high compression ratios and order-of-magnitude gains in retrieval throughput and energy efficiency. We also study data parallelism and show that, while it significantly improves speed, scaling energy efficiency is more difficult, reflecting the known non-energy-proportionality of modern hardware and challenging the assumption of a direct time-energy correlation. This work streamlines automation in energy-aware configuration tuning and standardized green benchmarking deployable in CI/CD pipelines, thus empowering system architects with a spectrum of Pareto-optimal energy-compression-throughput trade-offs and actionable guidelines for building sustainable, efficient storage backends for massive open-source code archival.
- Abstract(参考訳): 大規模なソースコードアーカイブからデータを取得することは、AIトレーニング、ニューラルベースソフトウェア分析、情報検索に不可欠である。
本稿では,大規模なソースコードデータセットのインデックス化のための圧縮キーバリューストアの設計と実験を行い,空間占有率,時間,エネルギー効率の3つの主要な計算資源間のトレードオフを評価する。
国家の高性能コンピューティングインフラに関する大規模な実験は、異なる圧縮構成が、高い圧縮比と検索スループットとエネルギー効率のオーダー・オブ・マグニチュードゲインを持つ、異なるトレードオフをもたらすことを示した。
また、データ並列性についても検討し、速度を著しく改善する一方、スケーリングエネルギー効率はより困難であり、現代のハードウェアの非エネルギー比例性を反映し、直接時間-エネルギー相関の仮定に挑戦することを示した。
この作業は、CI/CDパイプラインにデプロイ可能なエネルギー対応構成チューニングと標準化されたグリーンベンチマークの自動化を合理化することで、Pareto-Optimal Energy-compression-throughputのトレードオフと、大規模なオープンソースコードアーカイブのための持続的で効率的なストレージバックエンドを構築するための実行可能なガイドラインを備えたシステムアーキテクトに権限を与える。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - FlashResearch: Real-time Agent Orchestration for Efficient Deep Research [62.03819662340356]
FlashResearchは効率的なディープリサーチのための新しいフレームワークです。
シーケンシャル処理を並列なランタイムオーケストレーションに変換する。
同等のクオリティを維持しつつ、最大5倍のスピードアップを提供できる。
論文 参考訳(メタデータ) (2025-10-02T00:15:39Z) - Compressive Meta-Learning [49.300635370079874]
圧縮学習(Compressive learning)は、ランダムで非線形な特徴を用いることで効率的な処理を可能にするフレームワークである。
圧縮学習手法の符号化段階と復号段階の両方をメタラーニングするフレームワークを提案する。
ニューラルネットワークベースの圧縮PCA、圧縮リッジ回帰、圧縮k平均、オートエンコーダなど、複数のアプリケーションについて検討する。
論文 参考訳(メタデータ) (2025-08-14T22:08:06Z) - Compressed Feature Quality Assessment: Dataset and Baselines [89.62929964441962]
圧縮された特徴のセマンティック忠実度を評価するための最初のベンチマークデータセットを提案する。
MSE、コサイン類似性、CKA(Centered Kernel Alignment)という3つの広く使われているメトリクスを、意味的劣化を捉える能力の観点から体系的に評価する。
この研究は、基礎的なベンチマークを確立し、コミュニティがCFQAを探索するための重要なリソースを提供することによって、この分野を前進させます。
論文 参考訳(メタデータ) (2025-06-09T04:16:39Z) - Energy Considerations of Large Language Model Inference and Efficiency Optimizations [28.55549828393871]
大規模言語モデル(LLM)の規模と採用が拡大するにつれて、その計算と環境コストは上昇し続けている。
多様なNLPおよびAIワークロードにまたがる共通推論効率最適化のエネルギー含意を系統的に分析する。
本研究により, 推定効率最適化の適切な適用により, 最適化されていないベースラインから最大73%のエネルギー使用量を削減できることが判明した。
論文 参考訳(メタデータ) (2025-04-24T15:45:05Z) - Compression of Site-Specific Deep Neural Networks for Massive MIMO Precoding [4.8310710966636545]
本稿では,深層学習を用いたmMIMOプリコーダの計算エネルギー効率について検討する。
本稿では,混合精度量子化学習とニューラルアーキテクチャ探索を併用して,エネルギー使用量を削減するフレームワークを提案する。
この結果から,ニューラルネットワークの深部圧縮はWMMSEの35倍のエネルギー効率を持つプリコーダを同等の性能で生成することがわかった。
論文 参考訳(メタデータ) (2025-02-12T20:03:32Z) - Bullion: A Column Store for Machine Learning [4.096087402737292]
本稿では,機械学習処理に適した列記憶システムであるBullionについて述べる。
Bundyはデータコンプライアンスの複雑さに対処し、長いシーケンススパース機能のエンコーディングを最適化し、拡張可能なプロジェクションを効率的に管理し、ストレージに機能量子化を導入し、包括的なカスケードエンコーディングフレームワークを提供する。
予備的な実験結果と理論的分析は、機械学習ワークロードのユニークな要求に直面して、Bullionが強力なパフォーマンスを提供する能力が改善されたことを示している。
論文 参考訳(メタデータ) (2024-04-13T05:01:54Z) - Efficient Data Compression for 3D Sparse TPC via Bicephalous
Convolutional Autoencoder [8.759778406741276]
この研究は、textitBicephalous Convolutional AutoEncoder (BCAE)と呼ばれる、空間と回帰を同時に解決するデュアルヘッドオートエンコーダを導入している。
これはMGARD、SZ、ZFPといった従来のデータ圧縮手法と比較して圧縮忠実度と比の両方の利点を示している。
論文 参考訳(メタデータ) (2021-11-09T21:26:37Z) - Neural Distributed Source Coding [59.630059301226474]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。
提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。