Fugu-MT 論文翻訳(概要): Prediction of Listener Perception of Argumentative Speech in a Crowdsourced Data Using (Psycho-)Linguistic and Fluency Features

論文の概要: Prediction of Listener Perception of Argumentative Speech in a Crowdsourced Data Using (Psycho-)Linguistic and Fluency Features

arxiv url: http://arxiv.org/abs/2111.07130v1
Date: Sat, 13 Nov 2021 15:07:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-16 15:22:45.840498
Title: Prediction of Listener Perception of Argumentative Speech in a Crowdsourced Data Using (Psycho-)Linguistic and Fluency Features
Title（参考訳）: 心理学的・頻度的特徴を用いたクラウドソーシングデータにおける調音音声の聴取知覚の予測
Authors: Yu Qiao, Sourabh Zanwar, Rishab Bhattacharyya, Daniel Wiechmann, Wei Zhou, Elma Kerz, Ralf Schl\"uter
Abstract要約: 議論的発話のクラウドソースデータセットにおいてTEDトークスタイルの感情評価を予測することを目的としている。本稿では,TEDトーク音声の大規模データセット上で事前学習したモデルを微調整することにより,これらのカテゴリを予測するための分類タスクに有効なアプローチを提案する。
参考スコア（独自算出の注目度）: 24.14001104126045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the key communicative competencies is the ability to maintain fluency in monologic speech and the ability to produce sophisticated language to argue a position convincingly. In this paper we aim to predict TED talk-style affective ratings in a crowdsourced dataset of argumentative speech consisting of 7 hours of speech from 110 individuals. The speech samples were elicited through task prompts relating to three debating topics. The samples received a total of 2211 ratings from 737 human raters pertaining to 14 affective categories. We present an effective approach to the classification task of predicting these categories through fine-tuning a model pre-trained on a large dataset of TED talks public speeches. We use a combination of fluency features derived from a state-of-the-art automatic speech recognition system and a large set of human-interpretable linguistic features obtained from an automatic text analysis system. Classification accuracy was greater than 60% for all 14 rating categories, with a peak performance of 72% for the rating category 'informative'. In a secondary experiment, we determined the relative importance of features from different groups using SP-LIME.
Abstract（参考訳）: 重要なコミュニケーション能力の1つは、単調な言論の流動性を維持する能力と、説得力のある立場を主張する洗練された言語を作り出す能力である。本稿では,110人の発話から7時間からなる議論的発話のクラウドソーシングデータセットにおいて,TEDトークスタイルの感情評価を予測することを目的とする。音声サンプルは3つの話題に関するタスクプロンプトによって抽出された。サンプルは、14の感情カテゴリーを含む737人の人格から合計2211のレーティングを受けた。本稿では,TEDトーク音声の大規模データセット上で事前学習したモデルを微調整することで,これらのカテゴリを予測できる分類タスクを提案する。本稿では,最先端自動音声認識システムと,自動テキスト解析システムから得られた人間解釈可能な言語特徴の多種多様な組み合わせを用いた。分類精度は14の分類カテゴリーで60%以上であり、最高性能は「インフォームティヴ」で72%であった。二次実験ではSP-LIMEを用いて異なるグループの特徴の相対的重要性を決定した。

関連論文リスト

SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [52.29009595100625]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文参考訳（メタデータ） (2025-08-04T03:18:36Z)
Voice Quality Dimensions as Interpretable Primitives for Speaking Style for Atypical Speech and Affect [6.284447200986156]
知覚音声品質次元は、非定型音声および他の音声変調の鍵となる特徴を記述する。 7つの音声・音声次元の音声品質モデルを開発し,評価する。
論文参考訳（メタデータ） (2025-05-27T22:30:56Z)
PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs [36.18860434920165]
音声データセットにパーソナリティアノテーションがないために、パーソナリティを意識した会話エージェントが不足している。本研究では、生音声録音を前処理して、タイムスタンプ、応答タイプ、感情・感覚ラベルを付加した対話データセットを作成するパイプラインを提案する。自動音声認識(ASR)システムを用いて,テキストとタイムスタンプを抽出し,会話レベルのアノテーションを生成する。
論文参考訳（メタデータ） (2025-05-20T13:41:32Z)
Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文参考訳（メタデータ） (2024-09-23T02:34:42Z)
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文参考訳（メタデータ） (2024-09-19T17:59:52Z)
Estimating Contribution Quality in Online Deliberations Using a Large Language Model [4.911986505938227]
8人のアノテータとともに大きな言語モデル(LLM)を用いて、正当化、新規性、会話の拡張、さらなる拡張の可能性に基づいて貢献度を評価する。他のアノテータからの平均評価を根拠として、モデルが個々のアノテータより優れていることを発見した。本研究は,ナッジが検討の質に与える影響を評価することによって,自動品質評価の有用性について述べる。
論文参考訳（メタデータ） (2024-08-21T18:41:32Z)
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文参考訳（メタデータ） (2024-06-10T11:28:29Z)
Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT) モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文参考訳（メタデータ） (2023-12-23T18:14:56Z)
Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文参考訳（メタデータ） (2022-05-21T16:52:57Z)
Personalized Automatic Speech Recognition Trained on Small Disordered Speech Datasets [0.0]
言語障害の度合いや種類によって異なる195人を対象に、パーソナライズされたモデルを訓練した。ホームオートメーションのシナリオでは、話者の79%が18～20分間のスピーチでターゲットWERに到達したが、3～4分間のスピーチでは、話者の63%がターゲットWERに到達した。
論文参考訳（メタデータ） (2021-10-09T17:11:17Z)
Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文参考訳（メタデータ） (2021-08-30T07:00:28Z)
Comparing Supervised Models And Learned Speech Representations For Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文参考訳（メタデータ） (2021-07-08T17:24:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。