Fugu-MT 論文翻訳(概要): InhibiDistilbert: Knowledge Distillation for a ReLU and Addition-based Transformer

論文の概要: InhibiDistilbert: Knowledge Distillation for a ReLU and Addition-based Transformer

arxiv url: http://arxiv.org/abs/2503.15983v1
Date: Thu, 20 Mar 2025 09:30:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-21 15:30:52.34195
Title: InhibiDistilbert: Knowledge Distillation for a ReLU and Addition-based Transformer
Title（参考訳）: InhibiDistilbert: ReLUと加算変換器の知識蒸留
Authors: Tony Zhang, Rickard Brännvall,
Abstract要約: インヒビターアテンションは、従来のスケールされたドット積アテンションの行列乗算とソフトマックスアクティベーションの代わりにマンハッタン距離とReLUアクティベーションを採用する。本研究では,インヒビター機構のトレーニング効率の向上とDistilBERTアーキテクチャの性能評価のためのさらなる調整を提案する。
参考スコア（独自算出の注目度）: 2.3020018305241337
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work explores optimizing transformer-based language models by integrating model compression techniques with inhibitor attention, a novel alternative attention mechanism. Inhibitor attention employs Manhattan distances and ReLU activations instead of the matrix multiplications and softmax activation of the conventional scaled dot-product attention. This shift offers potential computational and energy savings while maintaining model effectiveness. We propose further adjustments to improve the inhibitor mechanism's training efficiency and evaluate its performance on the DistilBERT architecture. Our knowledge distillation experiments indicate that the modified inhibitor transformer model can achieve competitive performance on standard NLP benchmarks, including General Language Understanding Evaluation (GLUE) and sentiment analysis tasks.
Abstract（参考訳）: 本研究は, モデル圧縮技術とインヒビターアテンションを統合し, トランスフォーマーに基づく言語モデルの最適化について検討する。インヒビターアテンションは、従来のスケールされたドット積アテンションの行列乗算とソフトマックスアクティベーションの代わりにマンハッタン距離とReLUアクティベーションを採用する。このシフトは、モデルの有効性を維持しながら、潜在的な計算とエネルギーの節約を提供する。本研究では,インヒビター機構のトレーニング効率の向上とDistilBERTアーキテクチャの性能評価のためのさらなる調整を提案する。我々の知識蒸留実験は, 改良インヒビタートランスフォーマーモデルにより, GLUE (General Language Understanding Evaluation) や感情分析タスクを含む標準NLPベンチマークにおいて, 競争性能を達成できることを示唆している。

関連論文リスト

Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文参考訳（メタデータ） (2025-03-31T10:16:03Z)
Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文参考訳（メタデータ） (2025-03-02T01:56:35Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
LORTSAR: Low-Rank Transformer for Skeleton-based Action Recognition [4.375744277719009]
LORTSARは2つの主要なトランスフォーマーベースモデル、"Hyperformer"と"STEP-CATFormer"に適用される。本手法は, 認識精度の劣化や性能向上などにより, モデルパラメータの数を大幅に削減することができる。これは、SVDと圧縮後の微調整を組み合わせることでモデル効率が向上し、人間の行動認識におけるより持続的で軽量で高性能な技術への道が開けることを確認する。
論文参考訳（メタデータ） (2024-07-19T20:19:41Z)
EEGEncoder: Advancing BCI with Transformer-Based Motor Imagery Classification [11.687193535939798]
脳-コンピュータインタフェース(BCI)は、脳波信号を用いてデバイスを直接神経制御する。脳波に基づく運動画像(MI)分類のための従来の機械学習手法は、手動の特徴抽出やノイズに対する感受性といった課題に遭遇する。本稿では,これらの制限を克服するために改良型トランスフォーマーとTCNを用いたディープラーニングフレームワークであるEEGEncoderを紹介する。
論文参考訳（メタデータ） (2024-04-23T09:51:24Z)
Adaptive Catalyst Discovery Using Multicriteria Bayesian Optimization with Representation Learning [17.00084254889438]
高性能触媒は、持続可能なエネルギー変換と人間の健康に不可欠である。触媒の発見は、巨大で高次元の構造と合成空間をナビゲートするための効率的なアプローチがないため、課題に直面している。
論文参考訳（メタデータ） (2024-04-18T18:11:06Z)
Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは、高い計算要求のため、実用的な制限に直面する可能性がある。このようなモデルは、ネットワークの一部を等価なMixture-of-Experts (MoE)層に変換することで、推論コストを削減するために利用することができる。本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを実証する。
論文参考訳（メタデータ） (2023-10-06T16:34:51Z)
The Inhibitor: ReLU and Addition-Based Attention for Efficient Transformers [0.0]
我々は、ドット生成物とソフトマックスに基づく注意を、加算とReLU活性化のみを含む別のメカニズムに置き換える。これは行列乗法でしばしば必要とされる倍精度への拡張をサイドステップとし、コストのかかるソフトマックス評価を避ける。より効率的な実行を可能にし、リソース制約のあるハードウェアや同型暗号のような代替の算術システム上で、より大きな量子化トランスフォーマーモデルをサポートする。
論文参考訳（メタデータ） (2023-10-03T13:34:21Z)
Improving Knowledge Distillation for BERT Models: Loss Functions, Mapping Methods, and Weight Tuning [1.1510009152620668]
本研究は, BERTモデル圧縮のための知識蒸留について検討し, 適用する。本研究では, 損失関数を用いた実験, トランスフォーマー層マッピング法, 注意の重み付けと表現損失の調整など, 知識蒸留を改善するための様々な手法について検討する。この研究の目的は、知識蒸留の効率性と効率を改善し、自然言語処理タスクのより効率的で正確なモデルの開発を可能にすることである。
論文参考訳（メタデータ） (2023-08-26T20:59:21Z)
Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文参考訳（メタデータ） (2023-05-27T21:25:55Z)
Stabilizing Transformer Training by Preventing Attention Entropy Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文参考訳（メタデータ） (2023-03-11T03:30:47Z)
HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文参考訳（メタデータ） (2022-11-30T05:31:45Z)
Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文参考訳（メタデータ） (2021-04-20T00:09:37Z)
Pruning Redundant Mappings in Transformer Models via Spectral-Normalized Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。 5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文参考訳（メタデータ） (2020-10-05T05:40:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。