論文の概要: Late Breaking Results: Quamba-SE: Soft-edge Quantizer for Activations in State Space Models
- arxiv url: http://arxiv.org/abs/2601.09451v1
- Date: Wed, 14 Jan 2026 12:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.403349
- Title: Late Breaking Results: Quamba-SE: Soft-edge Quantizer for Activations in State Space Models
- Title(参考訳): 遅い破壊結果:Quamba-SE:状態空間モデルにおける活性化のためのソフトエッジ量子化器
- Authors: Yizhi Chen, Ahmed Hemani,
- Abstract要約: Quamba-SEは、ステートスペースモデル活性化量子化のためのソフトエッジ量子化器である。
適応的なスケールは3つあり、小さな値の高精度、通常の値の標準スケール、外れ値の低精度である。
- 参考スコア(独自算出の注目度): 0.20196229393131726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Quamba-SE, a soft-edge quantizer for State Space Model (SSM) activation quantization. Unlike existing methods, using standard INT8 operation, Quamba-SE employs three adaptive scales: high-precision for small values, standard scale for normal values, and low-precision for outliers. This preserves outlier information instead of hard clipping, while maintaining precision for other values. We evaluate on Mamba- 130M across 6 zero-shot benchmarks. Results show that Quamba- SE consistently outperforms Quamba, achieving up to +2.68% on individual benchmarks and up to +0.83% improvement in the average accuracy of 6 datasets.
- Abstract(参考訳): 本研究では,状態空間モデル(SSM)アクティベーション量子化のためのソフトエッジ量子化器であるQuamba-SEを提案する。
既存の INT8 操作とは異なり、Quamba-SE では、小さな値の高精度、通常の値の標準スケール、外れ値の低精度の3つの適応スケールを採用している。
これは、他の値の精度を維持しながら、ハードクリッピングの代わりに外れ値情報を保存する。
6つのゼロショットベンチマークでMamba-130Mを評価した。
結果は、Quamba-SEがQuambaより一貫して優れており、個々のベンチマークで+2.68%、平均6つのデータセットで+0.83%向上していることを示している。
関連論文リスト
- Uncertainty Makes It Stable: Curiosity-Driven Quantized Mixture-of-Experts [6.221156050218661]
本稿では、資源制約のあるデバイス上でのディープニューラルネットワークのための好奇心駆動型量子化混合処理フレームワークを提案する。
われわれの4ビット量子化は、16ビットの精度(0.858対0.859 F1)の99.9%を維持し、4倍の圧縮と41%の省エネを実現している。
我々の情報理論的ルーティングは、適応量子化が精度(0.858 F1, 1.2M params)、エネルギー効率(3.87 F1/mJ)、予測可能なエッジモデルをもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-13T15:32:41Z) - Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation [103.66549325018741]
現在のベンチマークの違いを示す2つの重要な指標を紹介します。
より優れた信号対雑音比を持つベンチマークは、小規模で意思決定を行う場合、より信頼性が高いことを示す。
結論は、新しいベンチマークを作成する人や、どの既存のベンチマークを使うかを選択する人は、高い信号と低いノイズを目標にすることを推奨する。
論文 参考訳(メタデータ) (2025-08-18T17:56:04Z) - eMamba: Efficient Acceleration Framework for Mamba Models in Edge Computing [14.932572899503935]
State Space Model (SSM)ベースの機械学習アーキテクチャは、最近、シーケンシャルデータを処理する上で大きな注目を集めている。
eMambaは、エッジプラットフォームにMambaモデルをデプロイするために特別に設計された、包括的なエンドツーエンドハードウェアアクセラレーションフレームワークである。
我々はeMambaが1.63-19.9$times$ lessパラメータを使って最先端技術に匹敵する精度を達成することを示した。
論文 参考訳(メタデータ) (2025-08-14T06:08:05Z) - MICE for CATs: Model-Internal Confidence Estimation for Calibrating Agents with Tools [54.63478102768333]
十分に校正されたモデル信頼度は、潜在的な行動の報酬に対するリスクを測るために使用することができる。
本稿では,ツール呼び出し時の信頼度を評価するために,モデル内信頼度推定器(MICE)の新たなクラスを提案する。
論文 参考訳(メタデータ) (2025-04-28T18:06:38Z) - S*: Test Time Scaling for Code Generation [55.11863577956177]
コード生成のための最初のハイブリッドテストタイムスケーリングフレームワークであるS*を提案する。
S*は生成されたコードのカバレッジと選択精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-20T09:18:53Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。