論文の概要: Highly Efficient and Effective LLMs with Multi-Boolean Architectures
- arxiv url: http://arxiv.org/abs/2505.22811v2
- Date: Fri, 03 Oct 2025 15:53:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:51.941673
- Title: Highly Efficient and Effective LLMs with Multi-Boolean Architectures
- Title(参考訳): マルチプールアーキテクチャを用いた高効率かつ効率的なLCM
- Authors: Ba-Hien Tran, Van Minh Nguyen,
- Abstract要約: 大型言語モデル(LLM)の複雑さを軽減するための有望な戦略として、重み二項化が登場した。
既存のアプローチは、単純だが重大なパフォーマンス損失を引き起こす訓練後二項化と、完全精度の潜伏重みに依存し、複雑さと制限効率を追加するトレーニング対応の方法に該当する。
本稿では,マルチカーネルBooleanパラメータでLLMを表現する新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.346271362401715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weight binarization has emerged as a promising strategy to reduce the complexity of large language models (LLMs). Existing approaches fall into post-training binarization, which is simple but causes severe performance loss, and training-aware methods, which depend on full-precision latent weights, adding complexity and limiting efficiency. We propose a novel framework that represents LLMs with multi-kernel Boolean parameters and, for the first time, enables direct finetuning LMMs in the Boolean domain, eliminating the need for latent weights. This enhances representational capacity and dramatically reduces complexity during both finetuning and inference. Extensive experiments across diverse LLMs show our method outperforms recent ultra low-bit quantization and binarization techniques.
- Abstract(参考訳): 重みのバイナライゼーションは,大規模言語モデル(LLM)の複雑性を低減するための有望な戦略として登場した。
既存のアプローチは、単純だが重大なパフォーマンス損失を引き起こす訓練後二項化と、完全精度の潜伏重みに依存し、複雑さと制限効率を追加するトレーニング対応の方法に該当する。
本稿では,マルチカーネルBooleanパラメータでLLMを表現する新しいフレームワークを提案する。
これにより表現能力が向上し、微調整と推論の両方で複雑さが劇的に減少する。
近年の超低ビット量子化法やバイナライゼーション法よりも優れた手法が提案されている。
関連論文リスト
- Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle [53.239242017802056]
強化学習(Reinforcement Learning, RL)は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための効果的なポストトレーニングパラダイムとして登場した。
しかしながら、現在のRLパイプラインは、アドバンテージ・コラプシング(Advantage Collapsing)とロールアウト・サイレンシング(Rollout Silencing)という2つの未解決の問題によって、トレーニングの非効率に悩まされることが多い。
軌道サンプリングとバッチ合成を動的に再構成することにより、RLの微調整効率を向上する、シンプルだが原則化されたフレームワークであるShuffle-R1を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:53:47Z) - Investigating Structural Pruning and Recovery Techniques for Compressing Multimodal Large Language Models: An Empirical Study [64.26593350748401]
MLLM(Multimodal Large Language Models)は印象的な機能を示す。
SLM(Small Language Models)からのMLLMの学習を主とするパラメータ削減技術
本稿では, 構造物の刈り込みと効率的な回復訓練を組み合わせることで, 既存のMLLMを直接圧縮することを提案する。
論文 参考訳(メタデータ) (2025-07-28T11:57:52Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
本稿では,学習後圧縮フレームワークであるPBS$2$Pによるプログレッシブバイナリ化を提案する。
PBS$2$Pは、最先端のバイナリポストトレーニング量子化法を、複雑度と下流の精度の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-03T13:30:29Z) - STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [28.70239743254508]
LLM圧縮のための最初の構造双対化法を1ビット未満の精度で提案する。
バイナライズされたLLMの重みは、性能劣化を伴わずにランダムに反転することができる。
本手法は他の圧縮バイナライズ手法よりも優れた性能を示しながら,メモリ要求を大幅に低減する。
論文 参考訳(メタデータ) (2024-08-03T15:07:44Z) - ScaleBiO: Scalable Bilevel Optimization for LLM Data Reweighting [26.931958430968024]
バイレベル最適化はさまざまな機械学習設定で有効性を示しているが、実際にはほとんどのアルゴリズムは2次情報を必要とする。
本稿では,大規模LLMデータ再重み付けのための2レベル最適化に着目した,このパラダイムのスケーラブルなインスタンス化について紹介する。
LISAと呼ばれる最近提案されたメモリ効率のトレーニング技術と組み合わせることで、我々の新しいアルゴリズムは8倍のH100 GPUで$sim$30BのLLMにスケールできる。
論文 参考訳(メタデータ) (2024-06-28T15:03:08Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。