論文の概要: Unlocking Efficient Large Inference Models: One-Bit Unrolling Tips the Scales
- arxiv url: http://arxiv.org/abs/2502.01908v1
- Date: Tue, 04 Feb 2025 00:53:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:57:42.919484
- Title: Unlocking Efficient Large Inference Models: One-Bit Unrolling Tips the Scales
- Title(参考訳): 解錠効率の良い大推定モデル:1ビットの解錠タイプ
- Authors: Arian Eamaz, Farhang Yeganegi, Mojtaba Soltanalian,
- Abstract要約: 我々は1ビットのアルゴリズムを解き放つ新しいアプローチを導入し、物理世界からの情報をモデルアーキテクチャに効果的に統合する。
提案手法は,前処理で報告した1.58ビットよりもリンクレートが大幅に低くなる。
提案した1ビットアルゴリズムのアンローリング方式は,学習結果とテスト結果の両方を改善することができることを示す。
- 参考スコア(独自算出の注目度): 13.846014191157405
- License:
- Abstract: Recent advancements in Large Language Model (LLM) compression, such as BitNet and BitNet b1.58, have marked significant strides in reducing the computational demands of LLMs through innovative one-bit quantization techniques. We extend this frontier by looking at Large Inference Models (LIMs) that have become indispensable across various applications. However, their scale and complexity often come at a significant computational cost. We introduce a novel approach that leverages one-bit algorithm unrolling, effectively integrating information from the physical world in the model architecture. Our method achieves a bit-per-link rate significantly lower than the 1.58 bits reported in prior work, thanks to the natural sparsity that emerges in our network architectures. We numerically demonstrate that the proposed one-bit algorithm unrolling scheme can improve both training and test outcomes by effortlessly increasing the number of layers while substantially compressing the network. Additionally, we provide theoretical results on the generalization gap, convergence rate, stability, and sensitivity of our proposed one-bit algorithm unrolling.
- Abstract(参考訳): BitNetやBitNet b1.58のようなLLM圧縮の最近の進歩は、革新的な1ビット量子化技術によってLLMの計算要求を減らし、大きな進歩を遂げている。
このフロンティアは、様々なアプリケーションで必須になったLarge Inference Models (LIM) に目を向けることで拡張します。
しかし、そのスケールと複雑さは、しばしばかなりの計算コストで生じる。
我々は1ビットのアルゴリズムを解き放つ新しいアプローチを導入し、物理世界からの情報をモデルアーキテクチャに効果的に統合する。
提案手法は,ネットワークアーキテクチャに現れる自然空間により,従来報告されていた1.58ビットよりも大幅に低レートとなる。
提案手法は,ネットワークを実質的に圧縮しながら,層数を大幅に増やすことで,学習結果とテスト結果の両方を改善することができることを示す。
さらに,提案した1ビットアルゴリズムの一般化ギャップ,収束速度,安定性,感度について理論的結果を提供する。
関連論文リスト
- Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - On Model Compression for Neural Networks: Framework, Algorithm, and Convergence Guarantee [21.818773423324235]
本稿では,低ランク近似と重み近似の2つのモデル圧縮手法に焦点を当てた。
本稿では,非最適化の新たな視点から,モデル圧縮のための全体論的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-13T02:14:42Z) - Algorithm Unrolling for Massive Access via Deep Neural Network with
Theoretical Guarantee [30.86806523281873]
大規模アクセスはIoT(Internet of Things)ネットワークにおける重要な設計課題である。
我々は、マルチアンテナベースステーション(BS)と多数の単一アンテナIoTデバイスを備えたIoTネットワークの無許可アップリンク伝送を検討する。
本稿では,低計算複雑性と高ロバスト性を実現するために,ディープニューラルネットワークに基づく新しいアルゴリズムアンローリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-19T05:23:05Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - EQ-Net: A Unified Deep Learning Framework for Log-Likelihood Ratio
Estimation and Quantization [25.484585922608193]
EQ-Netは,データ駆動手法を用いてログ類似度(LLR)推定と量子化の両課題を解決する,最初の包括的フレームワークである。
広範な実験評価を行い,両タスクにおいて単一アーキテクチャが最先端の成果を達成できることを実証する。
論文 参考訳(メタデータ) (2020-12-23T18:11:30Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Wide-band butterfly network: stable and efficient inversion via
multi-frequency neural networks [1.2891210250935143]
広帯域散乱データから逆散乱マップを近似するために,広帯域蝶ネットワーク(WideBNet)と呼ばれるエンドツーエンドのディープラーニングアーキテクチャを導入する。
このアーキテクチャでは、バタフライの分解のような計算調和解析や、クーリー・テューキーFFTアルゴリズムのような伝統的なマルチスケール手法のツールが組み込まれている。
論文 参考訳(メタデータ) (2020-11-24T21:48:43Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Communication-efficient Variance-reduced Stochastic Gradient Descent [0.0]
通信効率のよい分散最適化の問題を考える。
特に、分散還元勾配に着目し、通信効率を高めるための新しいアプローチを提案する。
実データセットの包括的理論的および数値解析により、我々のアルゴリズムは通信の複雑さを95%減らし、ほとんど顕著なペナルティを伴わないことが明らかとなった。
論文 参考訳(メタデータ) (2020-03-10T13:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。