論文の概要: InhibiDistilbert: Knowledge Distillation for a ReLU and Addition-based Transformer
- arxiv url: http://arxiv.org/abs/2503.15983v1
- Date: Thu, 20 Mar 2025 09:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:36:09.154030
- Title: InhibiDistilbert: Knowledge Distillation for a ReLU and Addition-based Transformer
- Title(参考訳): InhibiDistilbert: ReLUと加算変換器の知識蒸留
- Authors: Tony Zhang, Rickard Brännvall,
- Abstract要約: インヒビターアテンションは、従来のスケールされたドット積アテンションの行列乗算とソフトマックスアクティベーションの代わりにマンハッタン距離とReLUアクティベーションを採用する。
本研究では,インヒビター機構のトレーニング効率の向上とDistilBERTアーキテクチャの性能評価のためのさらなる調整を提案する。
- 参考スコア(独自算出の注目度): 2.3020018305241337
- License:
- Abstract: This work explores optimizing transformer-based language models by integrating model compression techniques with inhibitor attention, a novel alternative attention mechanism. Inhibitor attention employs Manhattan distances and ReLU activations instead of the matrix multiplications and softmax activation of the conventional scaled dot-product attention. This shift offers potential computational and energy savings while maintaining model effectiveness. We propose further adjustments to improve the inhibitor mechanism's training efficiency and evaluate its performance on the DistilBERT architecture. Our knowledge distillation experiments indicate that the modified inhibitor transformer model can achieve competitive performance on standard NLP benchmarks, including General Language Understanding Evaluation (GLUE) and sentiment analysis tasks.
- Abstract(参考訳): 本研究は, モデル圧縮技術とインヒビターアテンションを統合し, トランスフォーマーに基づく言語モデルの最適化について検討する。
インヒビターアテンションは、従来のスケールされたドット積アテンションの行列乗算とソフトマックスアクティベーションの代わりにマンハッタン距離とReLUアクティベーションを採用する。
このシフトは、モデルの有効性を維持しながら、潜在的な計算とエネルギーの節約を提供する。
本研究では,インヒビター機構のトレーニング効率の向上とDistilBERTアーキテクチャの性能評価のためのさらなる調整を提案する。
我々の知識蒸留実験は, 改良インヒビタートランスフォーマーモデルにより, GLUE (General Language Understanding Evaluation) や感情分析タスクを含む標準NLPベンチマークにおいて, 競争性能を達成できることを示唆している。
関連論文リスト
- DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Learn A Flexible Exploration Model for Parameterized Action Markov Decision Processes [8.588866536242145]
モデルベース(MBRL)アルゴリズムであるFLEXploreを提案し,エージェントの学習効率と性能を向上させる。
FLEXploreは他のベースラインと比較して学習効率と性能が優れていることを示す。
論文 参考訳(メタデータ) (2025-01-06T05:33:09Z) - LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition [4.375744277719009]
LORTSARは2つの主要なトランスフォーマーベースモデル、"Hyperformer"と"STEP-CATFormer"に適用される。
本手法は, 認識精度の劣化や性能向上などにより, モデルパラメータの数を大幅に削減することができる。
これは、SVDと圧縮後の微調整を組み合わせることでモデル効率が向上し、人間の行動認識におけるより持続的で軽量で高性能な技術への道が開けることを確認する。
論文 参考訳(メタデータ) (2024-07-19T20:19:41Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Adaptive Catalyst Discovery Using Multicriteria Bayesian Optimization with Representation Learning [17.00084254889438]
高性能触媒は、持続可能なエネルギー変換と人間の健康に不可欠である。
触媒の発見は、巨大で高次元の構造と合成空間をナビゲートするための効率的なアプローチがないため、課題に直面している。
論文 参考訳(メタデータ) (2024-04-18T18:11:06Z) - The Inhibitor: ReLU and Addition-Based Attention for Efficient
Transformers [0.0]
我々は、ドット生成物とソフトマックスに基づく注意を、加算とReLU活性化のみを含む別のメカニズムに置き換える。
これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避ける。
より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。
論文 参考訳(メタデータ) (2023-10-03T13:34:21Z) - Improving Knowledge Distillation for BERT Models: Loss Functions,
Mapping Methods, and Weight Tuning [1.1510009152620668]
本研究は, BERTモデル圧縮のための知識蒸留について検討し, 適用する。
本研究では, 損失関数を用いた実験, トランスフォーマー層マッピング法, 注意の重み付けと表現損失の調整など, 知識蒸留を改善するための様々な手法について検討する。
この研究の目的は、知識蒸留の効率性と効率を改善し、自然言語処理タスクのより効率的で正確なモデルの開発を可能にすることである。
論文 参考訳(メタデータ) (2023-08-26T20:59:21Z) - Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。
知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。
我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文 参考訳(メタデータ) (2023-05-27T21:25:55Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。