論文の概要: Hybrid Gated Flow (HGF): Stabilizing 1.58-bit LLMs via Selective Low-Rank Correction
- arxiv url: http://arxiv.org/abs/2602.05269v1
- Date: Thu, 05 Feb 2026 03:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.747847
- Title: Hybrid Gated Flow (HGF): Stabilizing 1.58-bit LLMs via Selective Low-Rank Correction
- Title(参考訳): ハイブリッドゲート流(HGF):選択低域補正による1.58ビットLDMの安定化
- Authors: David Alejandro Trejo Pizzo,
- Abstract要約: Hybrid Gated Flow (HGF) は1.58ビットの3進バックボーンと学習可能な低ランクのFP16修正パスを結合したデュアルストリームアーキテクチャである。
我々は,HGF 5.4 が BitNet の 1.0294 と比較して 0.9306 のバリデーション損失を達成し,純三次量子化と FP16 ベースライン間の品質ギャップの約55% を回復することを示した。
- 参考スコア(独自算出の注目度): 0.766310831583367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models (LLMs) on edge devices is fundamentally constrained by the "Memory Wall" -- a hardware limitation where memory bandwidth, not compute, becomes the bottleneck. Recent 1.58-bit quantization techniques (e.g., BitNet b1.58) dramatically reduce memory footprint but typically incur a perplexity degradation of 20-25% compared to FP16 baselines. In this work, we introduce Hybrid Gated Flow (HGF), a dual-stream architecture that couples a 1.58-bit ternary backbone with a learnable, low-rank FP16 correction path controlled by adaptive gates. Through extensive experiments on the TinyStories dataset across two training regimes (2500 and 3500 steps), we demonstrate that HGF 5.4 achieves a validation loss of 0.9306 compared to BitNet's 1.0294, recovering approximately 55% of the quality gap between pure ternary quantization and the FP16 baseline (0.8490). This recovery is achieved with only ~12-15% memory overhead beyond the ternary backbone. Furthermore, we provide empirical evidence for an emergent phenomenon: quantization as structural regularization. While a full-precision differential attention baseline (Diff_Only) exhibited training instability with validation loss exceeding 1.68, the ternary-anchored HGF maintained robust convergence throughout training. Finally, we report preliminary results extending this architecture to 1.2B and 3B parameter models trained on SlimPajama and FineWeb-Edu. These larger-scale experiments confirm that the architectural stability and quality recovery observed in small-scale proxies scale linearly to production-grade language modeling regimes.
- Abstract(参考訳): エッジデバイスへのLLM(Large Language Models)のデプロイは、メモリ帯域幅が計算ではなくボトルネックとなるハードウェア制限である"メモリウォール(Memory Wall)"によって、基本的に制限されている。
最近の1.58ビット量子化技術(例えばBitNet b1.58)は、メモリフットプリントを劇的に削減するが、FP16ベースラインと比較して、通常20-25%のパープレキシティ劣化を引き起こす。
本稿では,適応ゲートによって制御される学習可能な低ランクFP16補正パスと,1.58ビットの3次バックボーンを結合したデュアルストリームアーキテクチャであるHybrid Gated Flow(HGF)を紹介する。
TinyStoriesデータセットに関する広範な実験(2500段階と3500段階)を通じて、HGF 5.4がBitNetの1.0294と比較して0.9306の検証損失を達成し、純三次量子化とFP16ベースライン(0.8490)間の品質ギャップの約55%を回復することを示した。
このリカバリは、第3のバックボーンを超えるメモリオーバーヘッドがわずか12~15%である。
さらに、創発現象の実証的証拠として、量子化を構造正則化として提供する。
完全精度差分注意ベースライン(Diff_Only)は, 検証損失が1.68以上であるトレーニング不安定性を示したが, 3次アンコールHGFはトレーニング期間中, 堅牢な収束を維持した。
最後に、このアーキテクチャをSlimPajamaとFineWeb-Eduでトレーニングされた1.2Bおよび3Bパラメータモデルに拡張する予備的な結果を報告する。
これらの大規模実験は、小規模プロキシで観測される構造安定性と品質回復が、生産段階の言語モデリング体制に線形にスケールすることを確認する。
関連論文リスト
- D3R-Net: Dual-Domain Denoising Reconstruction Network for Robust Industrial Anomaly Detection [0.0]
非教師付き異常検出(UAD)は、現代の製造において、自動視覚検査の鍵となる要素である。
本稿では、D3R-Netについて紹介する。D3R-Netは、自己教師型「癒し」タスクと周波数認識正規化を結合したデュアルドメイン・デノベーション・コンストラクションフレームワークである。
空間平均二乗誤差に加えて、周波数領域の整合性を促進するFast Fourier Transform (FFT) 等級損失を用いる。
論文 参考訳(メタデータ) (2026-01-27T23:21:59Z) - Uncertainty Makes It Stable: Curiosity-Driven Quantized Mixture-of-Experts [6.221156050218661]
本稿では、資源制約のあるデバイス上でのディープニューラルネットワークのための好奇心駆動型量子化混合処理フレームワークを提案する。
われわれの4ビット量子化は、16ビットの精度(0.858対0.859 F1)の99.9%を維持し、4倍の圧縮と41%の省エネを実現している。
我々の情報理論的ルーティングは、適応量子化が精度(0.858 F1, 1.2M params)、エネルギー効率(3.87 F1/mJ)、予測可能なエッジモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-13T15:32:41Z) - Every Attention Matters: An Efficient Hybrid Architecture for Long-Context Reasoning [73.10669391954801]
本稿では、Ring-mini-linear-2.0およびRing-flash-linear-2.0を含むRing-linearモデルシリーズについて述べる。
どちらのモデルも線形アテンションとソフトマックスアテンションを効果的に統合するハイブリッドアーキテクチャを採用している。
32億のパラメータ密度モデルと比較して、このシリーズは推論コストを1/10に削減し、元のRingシリーズと比較すると、コストも50%以上削減される。
論文 参考訳(メタデータ) (2025-10-22T07:59:38Z) - Ultrafast Deep Learning-Based Scatter Estimation in Cone-Beam Computed Tomography [7.864992877255044]
散乱アーティファクトは、コーンビームCT(CBCT)スキャンの画質を大幅に劣化させる。
深層学習に基づく手法はCBCT測定から散乱を推定する上で有望であることを示す。
モバイルCBCTシステムやエッジデバイスへの展開は、ネットワークのメモリフットプリントが大きいため、依然として制限されている。
論文 参考訳(メタデータ) (2025-09-10T20:07:56Z) - PRISM: Distributed Inference for Foundation Models at Edge [73.54372283220444]
PRISMは、エッジデバイス上での分散トランスフォーマー推論のための通信効率と計算アウェア戦略である。
ViT,BERT,GPT-2のPRISMを多種多様なデータセットで評価した。
論文 参考訳(メタデータ) (2025-07-16T11:25:03Z) - SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。
効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。
これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文 参考訳(メタデータ) (2025-01-30T15:31:48Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Scale Efficiently: Insights from Pre-training and Fine-tuning
Transformers [57.931830650323]
本稿では,事前学習および微調整型変圧器によるスケーリングの洞察について述べる。
モデルのサイズだけでなく、モデル形状が下流の微調整に重要であることを示す。
再設計したモデルにより、下流の微調整品質が向上する。
論文 参考訳(メタデータ) (2021-09-22T12:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。