Fugu-MT 論文翻訳(概要): Sim-T: Simplify the Transformer Network by Multiplexing Technique for Speech Recognition

論文の概要: Sim-T: Simplify the Transformer Network by Multiplexing Technique for Speech Recognition

arxiv url: http://arxiv.org/abs/2304.04991v1
Date: Tue, 11 Apr 2023 05:25:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-12 16:10:02.421012
Title: Sim-T: Simplify the Transformer Network by Multiplexing Technique for Speech Recognition
Title（参考訳）: Sim-T: 音声認識のための多重化手法によるトランスフォーマーネットワークの簡易化
Authors: Guangyong Wei, Zhikui Duan, Shiren Li, Guangguang Yang, Xinmei Yu, Junhua Li
Abstract要約: トランスフォーマーモデルの汎用性を高めるために,Sim-Tと呼ばれる新しい軽量モデルが提案されている。新たに開発された多重化技術の助けを借りて、Sim-Tはその性能に対して無視できない犠牲でモデルを効率的に圧縮することができる。
参考スコア（独自算出の注目度）: 2.4956060473718407
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, a great deal of attention has been paid to the Transformer network for speech recognition tasks due to its excellent model performance. However, the Transformer network always involves heavy computation and large number of parameters, causing serious deployment problems in devices with limited computation sources or storage memory. In this paper, a new lightweight model called Sim-T has been proposed to expand the generality of the Transformer model. Under the help of the newly developed multiplexing technique, the Sim-T can efficiently compress the model with negligible sacrifice on its performance. To be more precise, the proposed technique includes two parts, that are, module weight multiplexing and attention score multiplexing. Moreover, a novel decoder structure has been proposed to facilitate the attention score multiplexing. Extensive experiments have been conducted to validate the effectiveness of Sim-T. In Aishell-1 dataset, when the proposed Sim-T is 48% parameter less than the baseline Transformer, 0.4% CER improvement can be obtained. Alternatively, 69% parameter reduction can be achieved if the Sim-T gives the same performance as the baseline Transformer. With regard to the HKUST and WSJ eval92 datasets, CER and WER will be improved by 0.3% and 0.2%, respectively, when parameters in Sim-T are 40% less than the baseline Transformer.
Abstract（参考訳）: 近年,その優れたモデル性能から,音声認識タスクのトランスフォーマーネットワークに注目が集まっている。しかし、トランスフォーマーネットワークは常に重い計算と大量のパラメータを伴い、計算ソースやストレージメモリの制限されたデバイスに深刻なデプロイ問題を引き起こす。本稿では,トランスフォーマーモデルの拡張のために,Sim-Tと呼ばれる新しい軽量モデルを提案する。新しく開発された多重化技術により、sim-tはその性能を犠牲にして効率的にモデルを圧縮することができる。より正確に言うと、提案手法はモジュール重み多重化とアテンションスコア多重化という2つの部分を含む。また,注意スコア多重化を容易にするために,新しいデコーダ構造が提案されている。 Sim-Tの有効性を検証するために大規模な実験が行われた。 Aishell-1データセットでは、提案したSim-Tがベースライントランスよりも48%少ないパラメータである場合、0.4%のCER改善が得られる。あるいは、Sim-Tがベースライン変換器と同じ性能を与えると、69%のパラメータ削減が達成される。 HKUSTとWSJ eval92データセットに関して、Sim-Tのパラメータがベースライントランスフォーマーよりも40%少ない場合、CERとWERはそれぞれ0.3%と0.2%改善される。

関連論文リスト

Chain-of-Thought Enhanced Shallow Transformers for Wireless Symbol Detection [14.363929799618283]
無線シンボル検出のためのCoT拡張浅層変圧器フレームワークCHOOSE(CHain Of thOught Symbol dEtection)を提案する。隠れ空間内に自己回帰潜在推論ステップを導入することで、CHOOSEは浅いモデルの推論能力を大幅に改善する。実験により,本手法は従来の浅層変圧器よりも優れ,深部変圧器に匹敵する性能が得られることが示された。
論文参考訳（メタデータ） (2025-06-26T08:41:45Z)
Efficient Scaling of Diffusion Transformers for Text-to-Image Generation [105.7324182618969]
各種拡散変換器(DiT)のテキスト・画像生成におけるスケーリング特性について,広範かつ厳密なアブレーションにより検討した。 We found that U-ViT, a pure self-attention based DiT model provides a simple design and scales using cross-attention based DiT variants。
論文参考訳（メタデータ） (2024-12-16T22:59:26Z)
Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文参考訳（メタデータ） (2024-11-24T13:00:44Z)
Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文参考訳（メタデータ） (2024-11-04T05:38:56Z)
SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。 SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文参考訳（メタデータ） (2024-04-04T15:23:14Z)
ParFormer: A Vision Transformer with Parallel Mixer and Sparse Channel Attention Patch Embedding [9.144813021145039]
本稿では、並列ミキサーとスパースチャネル注意パッチ埋め込み(SCAPE)を組み込んだ視覚変換器であるParFormerを紹介する。 ParFormerは、畳み込み機構とアテンション機構を組み合わせることで、特徴抽出を改善する。エッジデバイスのデプロイメントでは、ParFormer-Tのスループットは278.1イメージ/秒で、EdgeNeXt-Sよりも1.38ドル高い。より大型のParFormer-Lは83.5%のTop-1精度に達し、精度と効率のバランスの取れたトレードオフを提供する。
論文参考訳（メタデータ） (2024-03-22T07:32:21Z)
Trainable Transformer in Transformer [48.754918968374334]
本稿では,Transformer in Transformer(略してTinT)の効率的な構築法を提案する。 TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。これらの結果から,大規模事前学習言語モデルでは複雑な推論が可能であることが示唆された。
論文参考訳（メタデータ） (2023-07-03T17:53:39Z)
SVT: Supertoken Video Transformer for Efficient Video Understanding [22.357170476500944]
本稿では,SPM(Semantic Pooling Module)を組み込んだSVT(Supertoken Video Transformer)を提案する。提案手法は,類似のセマンティクスで潜在表現をマージすることで冗長性を効果的に低減し,下流タスクに対する有能な情報の割合を増大させることができる。
論文参考訳（メタデータ） (2023-04-01T14:31:56Z)
SaiT: Sparse Vision Transformers through Adaptive Token Pruning [5.1477382898520485]
スパース適応画像変換器(SaiT)は、ハエのトークン間隔を単に変更するだけで、モデルアクセラレーションの様々なレベルを提供する。 SaiTは複雑性(FLOP)を39%から43%削減し、スループットを67%から91%向上させる。
論文参考訳（メタデータ） (2022-10-11T23:26:42Z)
AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。 AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文参考訳（メタデータ） (2021-12-14T18:56:07Z)
TCCT: Tightly-Coupled Convolutional Transformer on Time Series Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文参考訳（メタデータ） (2021-08-29T08:49:31Z)
Transformer on a Diet [81.09119185568296]
トランスフォーマーは、効率よくシーケンス情報をキャプチャできる能力のおかげで、広く使われている。 BERT や GPT-2 のような最近の開発は、有効性を重視した重いアーキテクチャしか提供していない。計算量が少ないトランスフォーマーが競合する結果をもたらすかどうかを調べるために, 慎重に設計された3つの光トランスフォーマーアーキテクチャを探索する。
論文参考訳（メタデータ） (2020-02-14T18:41:58Z)
End-to-End Multi-speaker Speech Recognition with Transformer [88.22355110349933]
音声認識モデルにおけるRNNベースのエンコーダデコーダをトランスフォーマーアーキテクチャに置き換える。また、計算量を削減するために、シーケンス全体ではなくセグメントに制限されるセルフアテンションコンポーネントを変更します。
論文参考訳（メタデータ） (2020-02-10T16:29:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。