論文の概要: HydraFormer: One Encoder For All Subsampling Rates
- arxiv url: http://arxiv.org/abs/2408.04325v1
- Date: Thu, 8 Aug 2024 09:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 15:58:21.056816
- Title: HydraFormer: One Encoder For All Subsampling Rates
- Title(参考訳): HydraFormer:全サブサンプルレートのエンコーダ
- Authors: Yaoxun Xu, Xingchen Song, Zhiyong Wu, Di Wu, Zhendong Peng, Binbin Zhang,
- Abstract要約: 本稿では、HydraSub、Conformerベースのエンコーダ、BiTransformerベースのデコーダからなるHydraFormerを提案する。
HydraFormerは、異なるサブサンプリング率を効率的に管理でき、トレーニングとデプロイメントのコストを大幅に削減できる。
AISHELL-1とLibriSpeechデータセットの実験では、HydraFormerが様々なサブサンプリングレートや言語に効果的に適応していることが示されている。
- 参考スコア(独自算出の注目度): 16.22780762115031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In automatic speech recognition, subsampling is essential for tackling diverse scenarios. However, the inadequacy of a single subsampling rate to address various real-world situations often necessitates training and deploying multiple models, consequently increasing associated costs. To address this issue, we propose HydraFormer, comprising HydraSub, a Conformer-based encoder, and a BiTransformer-based decoder. HydraSub encompasses multiple branches, each representing a distinct subsampling rate, allowing for the flexible selection of any branch during inference based on the specific use case. HydraFormer can efficiently manage different subsampling rates, significantly reducing training and deployment expenses. Experiments on AISHELL-1 and LibriSpeech datasets reveal that HydraFormer effectively adapts to various subsampling rates and languages while maintaining high recognition performance. Additionally, HydraFormer showcases exceptional stability, sustaining consistent performance under various initialization conditions, and exhibits robust transferability by learning from pretrained single subsampling rate automatic speech recognition models\footnote{Model code and scripts: https://github.com/HydraFormer/hydraformer}.
- Abstract(参考訳): 音声認識では,多様なシナリオに対処するために,サブサンプリングが不可欠である。
しかし、様々な現実世界の状況に対処するための単一のサブサンプリングレートの不十分さは、トレーニングと複数のモデルのデプロイを必要とし、結果として関連するコストが増大する。
この問題に対処するために,HydraSub, Conformerベースのエンコーダ, BiTransformerベースのデコーダからなるHydraFormerを提案する。
HydraSubは複数のブランチを含み、それぞれが異なるサブサンプリング率を表しており、特定のユースケースに基づいて推論中に任意のブランチを柔軟に選択することができる。
HydraFormerは、異なるサブサンプリング率を効率的に管理でき、トレーニングとデプロイメントのコストを大幅に削減できる。
AISHELL-1とLibriSpeechデータセットの実験により、HydraFormerは高い認識性能を維持しながら、様々なサブサンプリングレートや言語に効果的に適応できることが判明した。
さらに、HydraFormerは例外的な安定性を示し、様々な初期化条件下で一貫したパフォーマンスを維持し、事前訓練された単一サブサンプリングレートの自動音声認識モデルから学習することで堅牢な転送性を示す。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Hydra-MDP: End-to-end Multimodal Planning with Multi-target Hydra-Distillation [115.63989808986105]
教師-学生モデルに複数の教師を取り入れた新しいパラダイムであるHydra-MDPを提案する。
このアプローチは、学生モデルを訓練するために、人間とルールベースの教師の両方からの知識蒸留を利用する。
ルールベースの教師の知識により、Hydra-MDPは、非微分不可能な後処理に頼るのではなく、エンド・ツー・エンドの方法で環境がプランニングにどのように影響するかを学ぶ。
論文 参考訳(メタデータ) (2024-06-11T06:18:26Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Hydra: Multi-head Low-rank Adaptation for Parameter Efficient
Fine-tuning [6.715658563685112]
LoRAのような低ランク適応法は、パラメータ効率が優れており、追加の推論遅延がないため、大きな注目を集めている。
本稿では、並列および逐次適応分岐が微調整中に新しい特徴と一般的な特徴を学習する解析に基づいて、より一般的なアダプタモジュールについて検討する。
提案手法はHydraと呼ばれ,並列分岐とシーケンシャル分岐を組み合わせて,既存の単一分岐法よりも表現力が高い機能を統合する。
論文 参考訳(メタデータ) (2023-09-13T12:46:06Z) - TranSFormer: Slow-Fast Transformer for Machine Translation [52.12212173775029]
本稿では,TrantextbfSFormerと呼ばれる2ストリーム学習モデルを提案する。
我々のTranSFormerは、複数の機械翻訳ベンチマークにおいて、BLEUの一貫性のある改善(BLEU点よりも大きい)を示す。
論文 参考訳(メタデータ) (2023-05-26T14:37:38Z) - Frame Flexible Network [52.623337134518835]
既存のビデオ認識アルゴリズムは、常に異なるフレーム番号の入力に対して異なるトレーニングパイプラインを実行する。
トレーニングに使われていない他のフレームを使用してモデルを評価した場合、パフォーマンスが大幅に低下するのを観察する。
本稿では,フレームフレキシブルネットワーク(FFN)と呼ばれる汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-26T20:51:35Z) - Transformer Memory as a Differentiable Search Index [102.41278496436948]
本稿では,文字列クエリを関連するドシデントに直接マップするテキストからテキストモデルを学ぶ新しいパラダイムであるdiffariable Search Index (DSI)を紹介する。
文書とその識別子の表現方法、訓練手順のバリエーション、モデルとコーパスサイズ間の相互作用について検討する。
論文 参考訳(メタデータ) (2022-02-14T19:12:43Z) - HydraSum -- Disentangling Stylistic Features in Text Summarization using
Multi-Decoder Models [12.070474521259776]
現在のモデルの単一デコーダフレームワークを拡張した,新しい要約アーキテクチャであるHydraSumを紹介する。
提案モデルでは,各専門家,すなわちデコーダに対して,スタイリスティックな要約の学習と生成を奨励する。
トレーニングプロセスのガイド付きバージョンは、デコーダ間でどのサマリスタイルが分割されているかを明示的に規定することができる。
論文 参考訳(メタデータ) (2021-10-08T22:49:49Z) - DARE: AI-based Diver Action Recognition System using Multi-Channel CNNs
for AUV Supervision [3.5584173777587935]
本稿では,認知自律走行バディデータセットに基づいて学習したダイバー動作認識システムDAREを提案する。
DAREは高速で、1つのステレオペアを分類するのに数ミリ秒しか必要としないため、リアルタイム水中実装に適している。
論文 参考訳(メタデータ) (2020-11-16T04:05:32Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。