Fugu-MT 論文翻訳(概要): I3D: Transformer architectures with input-dependent dynamic depth for speech recognition

論文の概要: I3D: Transformer architectures with input-dependent dynamic depth for speech recognition

arxiv url: http://arxiv.org/abs/2303.07624v1
Date: Tue, 14 Mar 2023 04:47:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-15 16:25:40.470743
Title: I3D: Transformer architectures with input-dependent dynamic depth for speech recognition
Title（参考訳）: I3D:入力依存動的深度を用いた音声認識のためのトランスフォーマーアーキテクチャ
Authors: Yifan Peng, Jaesong Lee, Shinji Watanabe
Abstract要約: 本稿では,入力依存動的深さ(I3D)を用いたトランスフォーマーエンコーダを提案する。また、ゲート確率と入力依存性について興味深い分析を行い、より深いエンコーダの理解を深める。
参考スコア（独自算出の注目度）: 41.35563331283372
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformer-based end-to-end speech recognition has achieved great success. However, the large footprint and computational overhead make it difficult to deploy these models in some real-world applications. Model compression techniques can reduce the model size and speed up inference, but the compressed model has a fixed architecture which might be suboptimal. We propose a novel Transformer encoder with Input-Dependent Dynamic Depth (I3D) to achieve strong performance-efficiency trade-offs. With a similar number of layers at inference time, I3D-based models outperform the vanilla Transformer and the static pruned model via iterative layer pruning. We also present interesting analysis on the gate probabilities and the input-dependency, which helps us better understand deep encoders.
Abstract（参考訳）: トランスフォーマーに基づくエンドツーエンド音声認識は大きな成功を収めた。しかし、大きなフットプリントと計算オーバーヘッドのため、これらのモデルを現実世界のアプリケーションでデプロイするのは困難である。モデル圧縮技術はモデルのサイズを減らし、推論を高速化するが、圧縮されたモデルは最適化されたアーキテクチャを持つ。本稿では,入力依存動的深さ(I3D)を用いたトランスフォーマーエンコーダを提案する。同じようなレイヤーが推論時に現れると、i3dベースのモデルは反復的な層刈りによってバニラトランスや静的刈り込みモデルを上回る。また,ゲート確率と入力依存性について興味深い解析を行い,深いエンコーダの理解を深める。

関連論文リスト

latentSplat: Autoencoding Variational Gaussians for Fast Generalizable 3D Reconstruction [48.86083272054711]
latentSplatは3D潜在空間における意味ガウスを予測し、軽量な生成型2Dアーキテクチャで切り落としてデコードする手法である。 latentSplatは、高速でスケーラブルで高解像度なデータでありながら、復元品質と一般化におけるこれまでの成果よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-24T20:48:36Z)
Transformers Get Stable: An End-to-End Signal Propagation Theory for Language Models [6.809572275782338]
我々は,変換器モデルによる前方及び後方信号のモーメントを管理する統一信号伝搬理論を開発し,公式を提供する。我々のフレームワークは、ハイアテンションスコアに関連する、消失/爆発の勾配、ランク崩壊、不安定性を理解し、緩和するために使用することができる。
論文参考訳（メタデータ） (2024-03-14T17:59:14Z)
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文参考訳（メタデータ） (2024-02-19T15:33:09Z)
Knowledge Distillation in Vision Transformers: A Critical Review [6.508088032296086]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
論文参考訳（メタデータ） (2023-02-04T06:30:57Z)
Real-Time Target Sound Extraction [13.526450617545537]
実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。本稿では,エンコーダとして拡張因果畳み込みレイヤを積み重ねたエンコーダデコーダアーキテクチャであるWaveformerと,デコーダとしてトランスフォーマデコーダレイヤを提案する。
論文参考訳（メタデータ） (2022-11-04T03:51:23Z)
Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers [17.22112222736234]
トランスフォーマーエンコーダアーキテクチャは近年,モノキュラー3次元メッシュ再構築における最先端の成果を達成している。メモリのオーバーヘッドが大きく、推論速度が遅いため、そのようなモデルを実用的な用途に展開することは困難である。本稿では,FastMETROと呼ばれる単一画像からの3次元メッシュ再構成のためのトランスフォーマエンコーダデコーダアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-07-27T22:54:09Z)
MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。 MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2022-06-02T07:38:53Z)
Hierarchical Transformers Are More Efficient Language Models [19.061388006885686]
トランスフォーマーモデルは、多くのNLPおよびシーケンスモデリングタスクにおいて印象的な結果をもたらす。注目すべきは、Transformerは長いシーケンスを処理でき、長いコヒーレントな出力を生成することができることだ。我々は、長いシーケンスを効率的に処理するトランスフォーマーの鍵は、明示的な階層アーキテクチャを持つことにあると仮定する。
論文参考訳（メタデータ） (2021-10-26T14:00:49Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)
Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文参考訳（メタデータ） (2021-01-18T03:24:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。