Fugu-MT 論文翻訳(概要): Exploring Extreme Quantization in Spiking Language Models

論文の概要: Exploring Extreme Quantization in Spiking Language Models

arxiv url: http://arxiv.org/abs/2405.02543v3
Date: Mon, 1 Jul 2024 17:38:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 14:10:11.657671
Title: Exploring Extreme Quantization in Spiking Language Models
Title（参考訳）: スパイキング言語モデルにおける極端量子化の探索
Authors: Malyaban Bal, Yi Jiang, Abhronil Sengupta,
Abstract要約: 本稿では,新しい2進/3進(1/1.58ビット)スパイクLMアーキテクチャの開発を提案する。提案手法は,1/1.58ビットの1次スパイキングLMとして大きく進歩した。
参考スコア（独自算出の注目度）: 7.986844499514244
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the growing prevalence of large language model (LLM) architectures, a crucial concern persists regarding their energy and power consumption, which still lags far behind the remarkable energy efficiency of the human brain. Recent strides in spiking language models (LM) and transformer architectures aim to address this concern by harnessing the spiking activity of biological neurons to enhance energy/power efficiency. Doubling down on the principles of model quantization and energy efficiency, this paper proposes the development of a novel binary/ternary (1/1.58-bit) spiking LM architecture. Achieving scalability comparable to a deep spiking LM architecture is facilitated by an efficient knowledge distillation technique, wherein knowledge from a non-spiking full-precision "teacher" model is transferred to an extremely weight quantized spiking "student" LM. Our proposed model represents a significant advancement as the first-of-its-kind 1/1.58-bit spiking LM, and its performance is rigorously evaluated on multiple text classification tasks of the GLUE benchmark.
Abstract（参考訳）: 大きな言語モデル(LLM)アーキテクチャの普及にもかかわらず、人間の脳の目覚ましいエネルギー効率よりもはるかに遅れている、そのエネルギーと電力消費に関する重要な懸念が続いている。スパイキング言語モデル(LM)やトランスフォーマーアーキテクチャの最近の進歩は、生体ニューロンのスパイキング活性を利用してエネルギー/電力効率を向上させることでこの問題に対処することを目指している。本稿では,モデル量子化の原理とエネルギー効率を両立させ,新しい二元/三元(1/1.58ビット)スパイクLMアーキテクチャを提案する。ディープスパイキング LM アーキテクチャに匹敵するスケーラビリティの達成は、効率的な知識蒸留技術によって促進され、非スパイキング完全精度の "Teacher" モデルからの知識は、非常に重く定量化された "student" LMに転送される。提案手法は1/1.58ビットの1/1.58ビットのスパイクLMとして大きく進歩し,その性能はGLUEベンチマークの複数のテキスト分類タスクにおいて厳密に評価されている。

関連論文リスト

Are Large Brainwave Foundation Models Capable Yet? Insights from Fine-tuning [41.40603531008809]
我々は、系統的な微調整実験により、現在の大脳波基礎モデル(LBM)を評価する。我々の分析によると、最先端のLBMは従来のディープアーキテクチャよりも限界的な改善(0.9%-1.2%)しか得られていない。
論文参考訳（メタデータ） (2025-07-01T21:21:42Z)
Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。 LRM効率を向上させるための2つの軽量手法を提案する。まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文参考訳（メタデータ） (2025-06-18T17:18:12Z)
FANformer: Improving Large Language Models Through Effective Periodicity Modeling [30.84203256282429]
本稿ではFANformerを紹介し,Fourier Analysis Network(FAN)をアテンション機構に統合し,効率的な周期性モデリングを実現する。 FANformerはモデルサイズのスケールアップやトークンのトレーニングにおいて,Transformerよりも一貫してパフォーマンスが向上している。 FANformerの有効性をさらに検証するため、FANformer-1Bを1兆個のトークンで事前訓練する。
論文参考訳（メタデータ） (2025-02-28T18:52:24Z)
Systematic Weight Evaluation for Pruning Large Language Models: Enhancing Performance and Sustainability [1.542607498220242]
本研究は,トレーニング過程を通じて,個人の体重重大度を体系的に評価することに焦点を当てる。性能を損なうことなくモデルサイズを効果的に削減する手法を提案する。これらの発見は、持続可能な開発を保証するために最適化されたAIモデルの必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2025-02-24T11:34:49Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
Explore Activation Sparsity in Recurrent LLMs for Energy-Efficient Neuromorphic Computing [3.379854610429579]
Recurrent Large Language Models (R-LLM) は自己注意の複雑さを軽減するのに有効であることが証明されている。ニューロモルフィックハードウェア上でのエネルギー効率を高めるために,R-LLMの活性化をスパースする,低コストでトレーニング不要なアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-09T19:13:03Z)
Impact of ML Optimization Tactics on Greener Pre-Trained ML Models [46.78148962732881]
本研究の目的は,画像分類データセットと事前学習モデルの解析,最適化モデルと非最適化モデルを比較して推論効率を向上させること,最適化の経済的影響を評価することである。画像分類におけるPyTorch最適化手法(動的量子化、トーチ・コンパイル、局所プルーニング、グローバルプルーニング)と42のHugging Faceモデルの影響を評価するための制御実験を行った。動的量子化は推論時間とエネルギー消費の大幅な削減を示し、大規模システムに非常に適している。
論文参考訳（メタデータ） (2024-09-19T16:23:03Z)
Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。 LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文参考訳（メタデータ） (2024-08-20T09:42:17Z)
Efficient Materials Informatics between Rockets and Electrons [0.0]
この論文は、超高温耐火高エントロピー合金(RHEA)を組み込んだ機能性グレード材料(FGM)の設計に焦点を当てている。原子レベルでは、MPDDと呼ばれる450万以上の緩和された構造から機械学習(ML)に最適化されたデータエコシステムが、実験的な観察を知らせ、熱力学モデルを改善するために使用される。結果として生じるマルチレベル発見インフラストラクチャは、既存のソリューションを探すのではなく、問題のエンコーディングに重点を置いているため、非常に一般化可能である。
論文参考訳（メタデータ） (2024-07-05T17:03:26Z)
Lightweight Geometric Deep Learning for Molecular Modelling in Catalyst Discovery [0.0]
Open Catalyst Projectは、グラフニューラルネットワーク(GNN)の進歩を適用して、触媒発見の進展を加速することを目的としている。幾何学的および対称的なメッセージパッシングのようなロバストな設計パターンを実装することで、吸着と表面の相互作用の原子間力を予測するために、0.0748のMAEに達したGNNモデルを訓練することができた。
論文参考訳（メタデータ） (2024-04-05T17:13:51Z)
Exploring Model Transferability through the Lens of Potential Energy [78.60851825944212]
トランスファーラーニングは、事前訓練されたディープラーニングモデルが広く利用可能であることから、コンピュータビジョンタスクにおいて重要になっている。既存のトレーニング済みモデルの転送可能性の測定方法は、符号化された静的特徴とタスクラベルの間の統計的相関に依存する。我々はこれらの課題に対処するために,PEDという物理に着想を得たアプローチを提案する。
論文参考訳（メタデータ） (2023-08-29T07:15:57Z)
SpikingBERT: Distilling BERT to Train Spiking Language Models Using Implicit Differentiation [2.3361887733755897]
大型言語モデル(LLMs)は、ヒト脳よりもニューロンとシナプスが桁違いに少ない。本稿では,脳内のシナプス情報の流れから動機づけを引き出すことにより,従来のLMの計算コストを削減することを目的とした,バイオインスパイアされたスパイク言語モデルを提案する。我々の研究は、GLUEベンチマークで複数の異なるタスクにおいて、運用上のスパイクするLMアーキテクチャのパフォーマンスを実証する最初のものである。
論文参考訳（メタデータ） (2023-08-21T17:20:05Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。 E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文参考訳（メタデータ） (2022-06-26T10:58:41Z)
Latent Diffusion Energy-Based Model for Interpretable Text Modeling [104.85356157724372]
本稿では,拡散モデルと潜時空間ESMの共生を変動学習フレームワークで導入する。我々は,学習した潜在空間の品質を向上させるために,情報ボトルネックと合わせて幾何学的クラスタリングに基づく正規化を開発する。
論文参考訳（メタデータ） (2022-06-13T03:41:31Z)
Interpretable Convolutional Neural Networks for Subject-Independent Motor Imagery Classification [22.488536453952964]
本稿では,脳コンピュータインタフェース(BCI)研究のための説明可能なディープラーニングモデルを提案する。具体的には,運動画像(MI)タスクから得られる脳波信号を分類することを目的とする。トポグラフィーでLRPの出力を示す熱マップを可視化し, 神経生理学的因子の同定を行った。
論文参考訳（メタデータ） (2021-12-14T07:35:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。