論文の概要: Leveraging Pre-trained Language Model for Speech Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2106.06598v1
- Date: Fri, 11 Jun 2021 20:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:54:53.368562
- Title: Leveraging Pre-trained Language Model for Speech Sentiment Analysis
- Title(参考訳): 音声感情分析における事前学習言語モデルの利用
- Authors: Suwon Shon, Pablo Brusco, Jing Pan, Kyu J. Han, Shinji Watanabe
- Abstract要約: 本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
- 参考スコア(独自算出の注目度): 58.78839114092951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the use of pre-trained language models to learn
sentiment information of written texts for speech sentiment analysis. First, we
investigate how useful a pre-trained language model would be in a 2-step
pipeline approach employing Automatic Speech Recognition (ASR) and
transcripts-based sentiment analysis separately. Second, we propose a pseudo
label-based semi-supervised training strategy using a language model on an
end-to-end speech sentiment approach to take advantage of a large, but
unlabeled speech dataset for training. Although spoken and written texts have
different linguistic characteristics, they can complement each other in
understanding sentiment. Therefore, the proposed system can not only model
acoustic characteristics to bear sentiment-specific information in speech
signals, but learn latent information to carry sentiments in the text
representation. In these experiments, we demonstrate the proposed approaches
improve F1 scores consistently compared to systems without a language model.
Moreover, we also show that the proposed framework can reduce 65% of human
supervision by leveraging a large amount of data without human sentiment
annotation and boost performance in a low-resource condition where the human
sentiment annotation is not available enough.
- Abstract(参考訳): 本稿では、事前学習した言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
まず、自動音声認識(ASR)と書き起こしに基づく感情分析を別々に用いた2段階パイプラインアプローチにおいて、事前学習された言語モデルがいかに有用かを検討する。
第二に,エンド・ツー・エンドの音声感情モデルに基づく言語モデルを用いた擬似ラベル型半教師付き学習戦略を提案する。
話し言葉と書き言葉は異なる言語的特徴を持つが、感情を理解することで相互補完することができる。
そこで,提案するシステムは,音声信号に感情特有の情報を保持するために音響特性をモデル化するだけでなく,テキスト表現に感情を伝達するために潜在情報を学習することができる。
本実験では,言語モデルを持たないシステムと比較して,F1スコアを一貫して改善する手法を提案する。
また,人間の感情アノテーションを使わずに大量のデータを活用し,人間の感情アノテーションが不十分な低リソース環境での性能を高めることにより,人間の監督の65%を削減できることを示す。
関連論文リスト
- Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Direct Speech-to-speech Translation without Textual Annotation using
Bottleneck Features [13.44542301438426]
テキストの注釈やコンテンツ情報なしに訓練できる音声音声合成モデルを提案する。
Mandarin-Cantonese音声翻訳実験は,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-12-12T10:03:10Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。