論文の概要: Highly Efficient and Effective LLMs with Multi-Boolean Architectures
- arxiv url: http://arxiv.org/abs/2505.22811v1
- Date: Wed, 28 May 2025 19:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.505721
- Title: Highly Efficient and Effective LLMs with Multi-Boolean Architectures
- Title(参考訳): マルチプールアーキテクチャを用いた高効率かつ効率的なLCM
- Authors: Ba-Hien Tran, Van Minh Nguyen,
- Abstract要約: 大型言語モデル(LLM)の複雑さを劇的に減らすための有望な戦略として、重み二項化が登場した。
本稿では,LLMをマルチカーネルブールパラメータに効果的に変換する新しいフレームワークを提案する。
提案手法は,近年の超低ビット量子化法とバイナライゼーション法より優れている。
- 参考スコア(独自算出の注目度): 1.4195677954898822
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight binarization has emerged as a promising strategy to drastically reduce the complexity of large language models (LLMs). It is mainly classified into two approaches: post-training binarization and finetuning with training-aware binarization methods. The first approach, while having low complexity, leads to significant loss of information from the original LLMs, resulting in poor performance. The second approach, on the other hand, relies heavily on full-precision latent weights for gradient approximation of binary weights, which not only remains suboptimal but also introduces substantial complexity. In this paper, we introduce a novel framework that effectively transforms LLMs into multi-kernel Boolean parameters, for the first time, finetunes them directly in the Boolean domain, eliminating the need for expensive latent weights. This significantly reduces complexity during both finetuning and inference. Through extensive and insightful experiments across a wide range of LLMs, we demonstrate that our method outperforms recent ultra low-bit quantization and binarization methods.
- Abstract(参考訳): 重みのバイナライゼーションは,大規模言語モデル(LLM)の複雑さを大幅に削減する,有望な戦略として登場した。
主に、訓練後のバイナライゼーションと、訓練を意識したバイナライゼーション手法による微調整の2つのアプローチに分類される。
最初のアプローチは、複雑さが低いにもかかわらず、元のLSMからの情報量が大幅に減少し、パフォーマンスが低下する。
一方、第二のアプローチは、双対重みの勾配近似のための完全精度の潜時重みに大きく依存する。
本稿では,LLMをマルチカーネルブールパラメータに効果的に変換する新しいフレームワークを提案する。
これにより、微調整と推論の両方における複雑さが大幅に減少する。
広範かつ洞察に富んだ実験を通じて,本手法は近年の超低ビット量子化法とバイナライゼーション法より優れていることを示す。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [28.70239743254508]
LLM圧縮のための最初の構造双対化法を1ビット未満の精度で提案する。
バイナライズされたLLMの重みは、性能劣化を伴わずにランダムに反転することができる。
本手法は他の圧縮バイナライズ手法よりも優れた性能を示しながら,メモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2024-08-03T15:07:44Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。