論文の概要: SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing
- arxiv url: http://arxiv.org/abs/2302.14638v1
- Date: Mon, 27 Feb 2023 11:48:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 15:56:55.269094
- Title: SpeechFormer++: A Hierarchical Efficient Framework for Paralinguistic
Speech Processing
- Title(参考訳): SpeechFormer++: パラ言語音声処理のための階層的効率的なフレームワーク
- Authors: Weidong Chen, Xiaofen Xing, Xiangmin Xu, Jianxin Pang, Lan Du
- Abstract要約: パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
音声の特徴を考察し、パラ言語音声処理のための一般的な構造ベースフレームワークであるSpeechFormer++を提案する。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
- 参考スコア(独自算出の注目度): 17.128885611538486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paralinguistic speech processing is important in addressing many issues, such
as sentiment and neurocognitive disorder analyses. Recently, Transformer has
achieved remarkable success in the natural language processing field and has
demonstrated its adaptation to speech. However, previous works on Transformer
in the speech field have not incorporated the properties of speech, leaving the
full potential of Transformer unexplored. In this paper, we consider the
characteristics of speech and propose a general structure-based framework,
called SpeechFormer++, for paralinguistic speech processing. More concretely,
following the component relationship in the speech signal, we design a unit
encoder to model the intra- and inter-unit information (i.e., frames, phones,
and words) efficiently. According to the hierarchical relationship, we utilize
merging blocks to generate features at different granularities, which is
consistent with the structural pattern in the speech signal. Moreover, a word
encoder is introduced to integrate word-grained features into each unit
encoder, which effectively balances fine-grained and coarse-grained
information. SpeechFormer++ is evaluated on the speech emotion recognition
(IEMOCAP & MELD), depression classification (DAIC-WOZ) and Alzheimer's disease
detection (Pitt) tasks. The results show that SpeechFormer++ outperforms the
standard Transformer while greatly reducing the computational cost.
Furthermore, it delivers superior results compared to the state-of-the-art
approaches.
- Abstract(参考訳): パラ言語音声処理は、感情分析や神経認知障害分析などの多くの問題に対処する上で重要である。
近年、トランスフォーマーは自然言語処理の分野で大きな成功を収め、音声への適応を実証している。
しかし, 音声分野におけるトランスフォーマーに関するこれまでの研究は, 音声の特性を取り入れておらず, トランスフォーマーの潜在能力は未解明のままである。
本稿では,音声の特徴を考察し,パラ言語的音声処理のための汎用構造ベースフレームワークである speechformer++ を提案する。
より具体的には、音声信号の成分関係に従って、単位内および単位間情報(フレーム、電話、単語)を効率的にモデル化する単位エンコーダを設計する。
階層的関係により,マージブロックを用いて,音声信号の構造パターンと一致した,異なる粒度で特徴を生成する。
さらに、ワードエンコーダを導入し、単語の粒度を単位エンコーダに統合し、粒度と粗い情報を効果的にバランスさせる。
SpeechFormer++は、音声感情認識(IEMOCAP & MELD)、うつ病分類(DAIC-WOZ)、アルツハイマー病検出(Pitt)タスクに基づいて評価される。
その結果,SpeechFormer++は標準のTransformerよりも高い性能を示し,計算コストを大幅に削減した。
さらに、最先端のアプローチよりも優れた結果をもたらす。
関連論文リスト
- dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。
再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文 参考訳(メタデータ) (2024-07-08T08:53:26Z) - Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは効率的な音声言語モデリングのために設計された階層変換器である。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - SpeechGen: Unlocking the Generative Power of Speech Language Models with
Prompts [108.04306136086807]
本稿では,SpeechGenと呼ばれる統合フレームワークを用いて,各種タスクの音声LMを刺激するための即時チューニングの適用について検討する。
提案した統合フレームワークは効率と有効性に大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-03T22:35:27Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。