論文の概要: OneComp: One-Line Revolution for Generative AI Model Compression
- arxiv url: http://arxiv.org/abs/2603.28845v1
- Date: Mon, 30 Mar 2026 17:43:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.571759
- Title: OneComp: One-Line Revolution for Generative AI Model Compression
- Title(参考訳): OneComp: 生成AIモデル圧縮のための一線革命
- Authors: Yuma Ichikawa, Keiji Kimura, Akihiro Yoshida, Yudai Fujimoto, Hiroki Tokura, Yamato Arai, Yoshiyuki Ishii, Yusei Kawakami, Genki Shikada, Achille Jacquemond, Yoshihiko Fujisawa, Katsuki Fujisawa, Takumi Honda, Akira Sakai,
- Abstract要約: トレーニング後の圧縮は、性能を著しく低下させることなくモデルパラメータの精度を低下させる。
私たちは、このエキスパートワークフローをリソース適応パイプラインに変換するオープンソースの圧縮フレームワークOneCompを紹介します。
重要なアーキテクチャ上の選択は、最初の量子化されたチェックポイントをデプロイ可能なピボットとして扱い、各ステージが同じモデルを改善することを保証することである。
- 参考スコア(独自算出の注目度): 5.503278667006273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying foundation models is increasingly constrained by memory footprint, latency, and hardware costs. Post-training compression can mitigate these bottlenecks by reducing the precision of model parameters without significantly degrading performance; however, its practical implementation remains challenging as practitioners navigate a fragmented landscape of quantization algorithms, precision budgets, data-driven calibration strategies, and hardware-dependent execution regimes. We present OneComp, an open-source compression framework that transforms this expert workflow into a reproducible, resource-adaptive pipeline. Given a model identifier and available hardware, OneComp automatically inspects the model, plans mixed-precision assignments, and executes progressive quantization stages, ranging from layer-wise compression to block-wise refinement and global refinement. A key architectural choice is treating the first quantized checkpoint as a deployable pivot, ensuring that each subsequent stage improves the same model and that quality increases as more compute is invested. By converting state-of-the-art compression research into an extensible, open-source, hardware-aware pipeline, OneComp bridges the gap between algorithmic innovation and production-grade model deployment.
- Abstract(参考訳): ファンデーションモデルのデプロイは、メモリフットプリント、レイテンシ、ハードウェアコストによってますます制限されている。
トレーニング後の圧縮は、性能を著しく低下させることなくモデルパラメータの精度を下げることによって、これらのボトルネックを軽減することができるが、量子化アルゴリズム、精度予算、データ駆動キャリブレーション戦略、ハードウェアに依存した実行体制の断片化された風景を探索する実践的な実装は、依然として困難である。
私たちは、このエキスパートワークフローを再現可能なリソース適応型パイプラインに変換するオープンソースの圧縮フレームワークOneCompを紹介します。
モデル識別子と利用可能なハードウェアが与えられた後、OneCompはモデルを自動的に検査し、混合精度の割り当てを計画し、レイヤワイド圧縮からブロックワイド精細化、グローバル精細化まで、プログレッシブな量子化ステージを実行する。
重要なアーキテクチャ上の選択は、最初の量子化されたチェックポイントをデプロイ可能なピボットとして扱うことである。
最先端の圧縮研究を拡張可能なオープンソースのハードウェア対応パイプラインに変換することで、OneCompはアルゴリズムの革新とプロダクショングレードモデルデプロイメントのギャップを埋める。
関連論文リスト
- GO-GenZip: Goal-Oriented Generative Sampling and Hybrid Compression [50.76941829813458]
現在のネットワークデータテレメトリパイプラインは、複数の分散ソースから中央アグリゲータへの、きめ細かいキーパフォーマンス指標(KPI)の巨大なストリームで構成されている。
本研究は、目標指向の観点からネットワークテレメトリを再設計する、ジェネレーティブAI(GenAI)駆動サンプリングとハイブリッド圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-20T16:33:15Z) - Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - AngelSlim: A more accessible, comprehensive, and efficient toolkit for large model compression [17.374453570006448]
AngelSlimはTencent Hunyuanチームが開発した、大規模なモデル圧縮のための総合的で汎用的なツールキットである。
量子化、投機的復号化、トークンプルーニング、蒸留など、最先端のアルゴリズムを集約する。
これらの圧縮戦略を低レベルの実装と統合することにより、AngelSlimはアルゴリズム中心の研究とツール支援デプロイメントを可能にする。
論文 参考訳(メタデータ) (2026-02-07T07:02:56Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Unified Framework for Pre-trained Neural Network Compression via Decomposition and Optimized Rank Selection [3.1879514593973197]
本稿では, 階数制約内での複合圧縮損失を利用して, 分解と階数選択を適用した統一的な枠組みを提案する。
提案手法は連続空間におけるランクの自動探索を含み,事前学習モデルに対する最適なランク設定を効率的に同定する。
様々なベンチマークデータセットとモデルを用いて、包括的分析により、本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-09-05T14:15:54Z) - Quantize Once, Train Fast: Allreduce-Compatible Compression with Provable Guarantees [53.950234267704]
我々は、全リデュース勾配互換量子化法であるGlobal-QSGDを紹介する。
ベースライン量子化法で最大3.51%の分散トレーニングを高速化することを示す。
論文 参考訳(メタデータ) (2023-05-29T21:32:15Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - Towards Optimal Compression: Joint Pruning and Quantization [1.191194620421783]
本稿では,FITCompressについて紹介する。FITCompressは層単位での混合精度の量子化と非構造化プルーニングを組み合わせた新しい手法である。
コンピュータビジョンと自然言語処理ベンチマークの実験により,提案手法が優れた圧縮性能のトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2023-02-15T12:02:30Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。