論文の概要: Bridging the Granularity Gap for Acoustic Modeling
- arxiv url: http://arxiv.org/abs/2305.17356v1
- Date: Sat, 27 May 2023 03:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 20:04:21.811278
- Title: Bridging the Granularity Gap for Acoustic Modeling
- Title(参考訳): 音響モデリングのための粒度ギャップのブリッジ化
- Authors: Chen Xu, Yuhao Zhang, Chengbo Jiao, Xiaoqian Liu, Chi Hu, Xin Zeng,
Tong Xiao, Anxiang Ma, Huizhen Wang, JingBo Zhu
- Abstract要約: トランスフォーマーは音声のデファクトスタンダードになっているが、きめ細かいフレームレベルの特徴に基づくモデリングは依然としてオープンな課題である。
より完全な意味情報を含む粗粒度単位に徐々に音響特徴を圧縮するtextitProgressive Down-Sampling (PDS)を提案する。
- 参考スコア(独自算出の注目度): 32.453554287092054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Transformer has become the de-facto standard for speech, modeling upon
the fine-grained frame-level features remains an open challenge of capturing
long-distance dependencies and distributing the attention weights. We propose
\textit{Progressive Down-Sampling} (PDS) which gradually compresses the
acoustic features into coarser-grained units containing more complete semantic
information, like text-level representation. In addition, we develop a
representation fusion method to alleviate information loss that occurs
inevitably during high compression. In this way, we compress the acoustic
features into 1/32 of the initial length while achieving better or comparable
performances on the speech recognition task. And as a bonus, it yields
inference speedups ranging from 1.20$\times$ to 1.47$\times$. By reducing the
modeling burden, we also achieve competitive results when training on the more
challenging speech translation task.
- Abstract(参考訳): Transformerは音声のデファクトスタンダードになっているが、細かなフレームレベルの特徴に基づくモデリングは、長距離依存を捉え、注意重みを分散するというオープンな課題である。
テキストレベルの表現のようなより完全な意味情報を含む粗粒度単位に徐々に音響的特徴を圧縮する「textit{Progressive Down-Sampling} (PDS)」を提案する。
さらに,高圧縮時に必然的に発生する情報損失を軽減する表現融合法を開発した。
このようにして、音声認識タスクにおいて、音響特性を初期長の1/32に圧縮し、より良い又は同等のパフォーマンスを達成する。
そしてボーナスとして、1.20$\times$から1.47$\times$まで推論速度が上がる。
モデリングの重荷を軽減し,より困難な音声翻訳タスクを訓練した場合の競争結果も達成する。
関連論文リスト
- TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Speechformer: Reducing Information Loss in Direct Speech Translation [13.89298686257514]
入力シーケンス長に対するトランスフォーマーの二次的複雑性は、音声信号と同様、その採用を妨げる。
現在のソリューションは、生音声特徴の固定サンプリングに基づいて、初期最適部分圧縮を利用する。
本稿では,最初の損失圧縮を回避するアーキテクチャであるSpeechformerを提案し,より情報のある言語基準に従って情報のみを高レベルに集約する。
論文 参考訳(メタデータ) (2021-09-09T22:08:42Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。