論文の概要: Prediction of Listener Perception of Argumentative Speech in a
Crowdsourced Data Using (Psycho-)Linguistic and Fluency Features
- arxiv url: http://arxiv.org/abs/2111.07130v1
- Date: Sat, 13 Nov 2021 15:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 15:22:45.840498
- Title: Prediction of Listener Perception of Argumentative Speech in a
Crowdsourced Data Using (Psycho-)Linguistic and Fluency Features
- Title(参考訳): 心理学的・頻度的特徴を用いたクラウドソーシングデータにおける調音音声の聴取知覚の予測
- Authors: Yu Qiao, Sourabh Zanwar, Rishab Bhattacharyya, Daniel Wiechmann, Wei
Zhou, Elma Kerz, Ralf Schl\"uter
- Abstract要約: 議論的発話のクラウドソースデータセットにおいてTEDトークスタイルの感情評価を予測することを目的としている。
本稿では,TEDトーク音声の大規模データセット上で事前学習したモデルを微調整することにより,これらのカテゴリを予測するための分類タスクに有効なアプローチを提案する。
- 参考スコア(独自算出の注目度): 24.14001104126045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the key communicative competencies is the ability to maintain fluency
in monologic speech and the ability to produce sophisticated language to argue
a position convincingly. In this paper we aim to predict TED talk-style
affective ratings in a crowdsourced dataset of argumentative speech consisting
of 7 hours of speech from 110 individuals. The speech samples were elicited
through task prompts relating to three debating topics. The samples received a
total of 2211 ratings from 737 human raters pertaining to 14 affective
categories. We present an effective approach to the classification task of
predicting these categories through fine-tuning a model pre-trained on a large
dataset of TED talks public speeches. We use a combination of fluency features
derived from a state-of-the-art automatic speech recognition system and a large
set of human-interpretable linguistic features obtained from an automatic text
analysis system. Classification accuracy was greater than 60% for all 14 rating
categories, with a peak performance of 72% for the rating category
'informative'. In a secondary experiment, we determined the relative importance
of features from different groups using SP-LIME.
- Abstract(参考訳): 重要なコミュニケーション能力の1つは、単調な言論の流動性を維持する能力と、説得力のある立場を主張する洗練された言語を作り出す能力である。
本稿では,110人の発話から7時間からなる議論的発話のクラウドソーシングデータセットにおいて,TEDトークスタイルの感情評価を予測することを目的とする。
音声サンプルは3つの話題に関するタスクプロンプトによって抽出された。
サンプルは、14の感情カテゴリーを含む737人の人格から合計2211のレーティングを受けた。
本稿では,TEDトーク音声の大規模データセット上で事前学習したモデルを微調整することで,これらのカテゴリを予測できる分類タスクを提案する。
本稿では,最先端自動音声認識システムと,自動テキスト解析システムから得られた人間解釈可能な言語特徴の多種多様な組み合わせを用いた。
分類精度は14の分類カテゴリーで60%以上であり、最高性能は「インフォームティヴ」で72%であった。
二次実験ではSP-LIMEを用いて異なるグループの特徴の相対的重要性を決定した。
関連論文リスト
- Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - Identifying depression-related topics in smartphone-collected
free-response speech recordings using an automatic speech recognition system
and a deep learning topic model [7.825530847570242]
参加者265人を対象に,3919件のスマートフォンによる音声録音で29項目を抽出した。
PHQ-8の中央値が10以上の6つのトピックがうつ病のリスクトピックとみなされた。
また, 話題変化とうつ病重症度の変化との関係について検討した。
論文 参考訳(メタデータ) (2023-08-22T20:30:59Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [61.463533069294414]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Personalized Automatic Speech Recognition Trained on Small Disordered
Speech Datasets [0.0]
言語障害の度合いや種類によって異なる195人を対象に、パーソナライズされたモデルを訓練した。
ホームオートメーションのシナリオでは、話者の79%が18~20分間のスピーチでターゲットWERに到達したが、3~4分間のスピーチでは、話者の63%がターゲットWERに到達した。
論文 参考訳(メタデータ) (2021-10-09T17:11:17Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Comparing Supervised Models And Learned Speech Representations For
Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。
各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文 参考訳(メタデータ) (2021-07-08T17:24:25Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Variable frame rate-based data augmentation to handle speaking-style
variability for automatic speaker verification [23.970866246001652]
UCLA話者変量データベースを用いて,話者自動検証における発話型変量の影響について検討した。
PLDA適応のためのスタイル正規化表現を人工的に生成するエントロピーに基づく可変フレームレート手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T22:47:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。