論文の概要: BEExformer: A Fast Inferencing Binarized Transformer with Early Exits
- arxiv url: http://arxiv.org/abs/2412.05225v2
- Date: Sat, 12 Jul 2025 18:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:06.760939
- Title: BEExformer: A Fast Inferencing Binarized Transformer with Early Exits
- Title(参考訳): BEExformer: 早期出力を備えた高速な2値変換器
- Authors: Wazib Ansar, Saptarsi Goswami, Amlan Chakrabarti,
- Abstract要約: BAT(Binarized Early Exit Transformer)とEE(Early Exit)を統合した最初の選択型学習ベーストランスであるBEExformerを紹介する。
BATは符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方を捉える勾配を可能にする。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
- 参考スコア(独自算出の注目度): 2.7651063843287718
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) based on transformers achieve cutting-edge results on a variety of applications. However, their enormous size and processing requirements hinder deployment on constrained resources. To enhance efficiency, binarization and Early Exit (EE) have proved to be effective solutions. However, binarization may lead to performance loss as reduced precision affects gradient estimation and parameter updates. Besides, research on EE mechanisms is still in its early stages. To address these challenges, we introduce Binarized Early Exit Transformer (BEExformer), the first-ever selective learning-based transformer integrating Binarization-Aware Training (BAT) with EE for efficient and fast textual inference. Each transformer block has an integrated Selective-Learn Forget Network (SLFN) to enhance contextual retention while eliminating irrelevant information. The BAT employs a differentiable second-order approximation to the sign function, enabling gradient computation that captures both the sign and magnitude of the weights. This aids in 21.30 times reduction in model size. The EE mechanism hinges on fractional reduction in entropy among intermediate transformer blocks with soft-routing loss estimation. This accelerates inference by reducing FLOPs by 52.08% and even improves accuracy by 2.89% by resolving the "overthinking" problem inherent in deep networks. Extensive evaluation through comparison with the SOTA methods and various ablations across six datasets covering multiple NLP tasks demonstrates its Pareto-optimal performance-efficiency trade-off.
- Abstract(参考訳): トランスフォーマーに基づく大規模言語モデル(LLM)は、様々なアプリケーションで最先端の結果を得る。
しかし、その巨大なサイズと処理要件は、制約のあるリソースへのデプロイメントを妨げる。
効率を高めるために、二項化と早期排他(EE)が有効な解であることが証明された。
しかし、精度の低下が勾配推定やパラメータ更新に影響を及ぼすため、双項化は性能の低下につながる可能性がある。
さらに、EEメカニズムの研究はまだ初期段階にある。
これらの課題に対処するために、BAT(Binarization-Aware Training)とEEを統合してテキスト推論を高速かつ効率的に行う最初の選択型学習ベーストランスフォーマであるBEExformer(Binarized Early Exit Transformer)を紹介した。
各変圧器ブロックはSLFN(Selective-Learn Forget Network)と統合され、無関係な情報を排除しながらコンテキスト保持を強化する。
BATは、符号関数に微分可能な二階近似を用い、重みの符号と大きさの両方をキャプチャする勾配計算を可能にした。
これにより21.30倍のモデルサイズが縮小される。
EEメカニズムは、ソフトルーティング損失推定を伴う中間変圧器ブロック間のエントロピーの分数還元に係わる。
これにより、FLOPを52.08%削減して推論を加速し、深層ネットワークに固有の「過剰な」問題を解くことで精度を2.89%向上させる。
複数のNLPタスクをカバーする6つのデータセットに対するSOTA法との比較による広範囲な評価は、Pareto-Optimalパフォーマンス-効率トレードオフを示している。
関連論文リスト
- Energy-Based Transformers are Scalable Learners and Thinkers [84.7474634026213]
エネルギーベーストランス (EBTs) はエネルギーベースモデル (EBMs) の新しいクラスである
入力と予測ペア毎にエネルギー値を割り当てるようにEBTを訓練し、収束するまで勾配降下に基づくエネルギーによる予測を可能にする。
推論中、EBTはSystem 2 Thinkingで言語タスクにおけるTransformer++よりも29%パフォーマンスが向上した。
論文 参考訳(メタデータ) (2025-07-02T19:17:29Z) - Revisiting Funnel Transformers for Modern LLM Architectures with Comprehensive Ablations in Training and Inference Configurations [1.6255281211429766]
現代のGemma2 Transformerアーキテクチャにおけるファンネリングの影響について検討する。
ファネリングは、特に大きなモデルにおいて、より深いネットワーク層を伝播する情報のボトルネックを生み出します。
この結果から,計算効率とモデル精度の主なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-04-02T02:09:17Z) - BHViT: Binarized Hybrid Vision Transformer [53.38894971164072]
モデルバイナライゼーションは畳み込みニューラルネットワーク(CNN)のリアルタイムおよびエネルギー効率の計算を可能にした。
本稿では,バイナライズフレンドリーなハイブリッドViTアーキテクチャであるBHViTとそのバイナライズモデルを提案する。
提案アルゴリズムは,バイナリ ViT 手法間でSOTA 性能を実現する。
論文 参考訳(メタデータ) (2025-03-04T08:35:01Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - Joint Transmit and Pinching Beamforming for Pinching Antenna Systems (PASS): Optimization-Based or Learning-Based? [89.05848771674773]
MISO (Multiple-input Single-output) フレームワークを提案する。
それは複数の導波路で構成されており、多数の低コストアンテナ(PA)を備えている。
PAの位置は、大規模パスと空間の両方にまたがるように再構成することができる。
論文 参考訳(メタデータ) (2025-02-12T18:54:10Z) - Binary Event-Driven Spiking Transformer [36.815359983551986]
トランスフォーマーベースのスパイキングニューラルネットワーク(SNN)は、イベント駆動型自己注意パラダイムを導入している。
本稿では,2値イベント駆動型スパイキング変換器,BESTformerを提案する。
BESTformerは、バイナライゼーションの限られた表現能力のため、完全な精度で性能が低下する。
論文 参考訳(メタデータ) (2025-01-10T12:00:11Z) - Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。
実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-14T10:36:19Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - DSFormer: Effective Compression of Text-Transformers by Dense-Sparse
Weight Factorization [12.277820111814691]
DSFormerは、ターゲットの重み行列を小さな密度と半構造化されたスパース行列の積として表現する単純な代替因数分解スキームである。
我々のアプローチは、主流圧縮機にも当てはまり、一般的な蒸留、層共有および量子化変換器に追加される場合、最大50%の圧縮を提供する。
論文 参考訳(メタデータ) (2023-12-20T17:27:25Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Fine- and Coarse-Granularity Hybrid Self-Attention for Efficient BERT [22.904252855587348]
本稿では, 計算列長を漸進的に短縮することにより, コストを低減できる, 微細で粗い粒度ハイブリッド型自己アテンションを提案する。
FCAは従来の手法に比べて精度とFLOPのトレードオフが著しく優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T03:33:47Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。