論文の概要: Investigating Affect Mining Techniques for Annotation Sample Selection in the Creation of Finnish Affective Speech Corpus
- arxiv url: http://arxiv.org/abs/2505.17833v1
- Date: Fri, 23 May 2025 12:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.0761
- Title: Investigating Affect Mining Techniques for Annotation Sample Selection in the Creation of Finnish Affective Speech Corpus
- Title(参考訳): フィンランド語感情音声コーパス作成におけるアノテーションサンプル選択における影響マイニング手法の検討
- Authors: Kalle Lahtinen, Einari Vaaras, Liisa Mustanoja, Okko Räsänen,
- Abstract要約: 本稿では,フィンランドの3つの大規模音声コーパスから抽出した感情的覚醒と有能性のための12,000の発話をアノテートした最初のコーパスを提案する。
その結果、フィンランドの自発的な感情音声コーパスを導入し、他の言語やドメインで感情音声コーパスを作成するためのサンプリング戦略を通知する。
- 参考スコア(独自算出の注目度): 8.008453432425364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Study of affect in speech requires suitable data, as emotional expression and perception vary across languages. Until now, no corpus has existed for natural expression of affect in spontaneous Finnish, existing data being acted or from a very specific communicative setting. This paper presents the first such corpus, created by annotating 12,000 utterances for emotional arousal and valence, sampled from three large-scale Finnish speech corpora. To ensure diverse affective expression, sample selection was conducted with an affect mining approach combining acoustic, cross-linguistic speech emotion, and text sentiment features. We compare this method to random sampling in terms of annotation diversity, and conduct post-hoc analyses to identify sampling choices that would have maximized the diversity. As an outcome, the work introduces a spontaneous Finnish affective speech corpus and informs sampling strategies for affective speech corpus creation in other languages or domains.
- Abstract(参考訳): 感情表現と知覚が言語によって異なるため、言語における感情の研究には適切なデータが必要である。
これまで、自然発生のフィンランドにおける影響の自然な表現のためのコーパスは存在せず、既存のデータは実行され、また非常に特定のコミュニケーション設定から来ている。
本稿では,フィンランドの3つの大規模音声コーパスから抽出した感情的覚醒と有能性のための12,000の発話をアノテートした最初のコーパスを提案する。
多様な感情表現を確保するため, 音響的, 言語的音声感情, テキスト感情特徴を組み合わせた感情マイニング手法を用いて, サンプル選択を行った。
本手法をアノテーションの多様性の観点からランダムサンプリングと比較し,多様性を最大化するサンプリング選択を抽出するためのポストホック解析を行った。
その結果、フィンランドの自発的な感情音声コーパスを導入し、他の言語やドメインで感情音声コーパスを作成するためのサンプリング戦略を通知する。
関連論文リスト
- Language-Agnostic Analysis of Speech Depression Detection [2.5764071253486636]
本研究は、英語とマラヤラムの2言語間での自動抑うつ検出を解析する。
CNNモデルは、両言語に焦点をあてて、抑うつに関連する音響的特徴を特定するために訓練される。
その結果,言語に依存しない抑うつ検出システムの開発に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-23T07:35:56Z) - Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。
再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文 参考訳(メタデータ) (2024-07-08T08:53:26Z) - Paralinguistics-Enhanced Large Language Modeling of Spoken Dialogue [71.15186328127409]
パラリンGPT(Paralin GPT)
モデルは、シリアライズされたマルチタスクフレームワーク内の入力プロンプトとして、テキスト、音声埋め込み、およびパラ言語属性の会話コンテキストを取る。
音声対話データセットとして,感情ラベルをパラ言語属性として含むSwitchboard-1コーパスを利用する。
論文 参考訳(メタデータ) (2023-12-23T18:14:56Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - Learning Multilingual Expressive Speech Representation for Prosody
Prediction without Parallel Data [0.0]
本稿では,個別音声単位のレベルで音声から音声への感情翻訳を行う手法を提案する。
この埋め込みは、対象言語における音声単位のピッチと持続時間を予測するのに有効であることを示す。
我々は、英語とフランス語の音声信号に対する我々のアプローチを評価し、ベースライン法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:06:54Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - EMNS /Imz/ Corpus: An emotive single-speaker dataset for narrative
storytelling in games, television and graphic novels [6.2375553155844266]
Emotive Narrative Storytelling (EMNS) コーパスは、会話の感情的品質を高めるために作られたユニークな音声データセットである。
女性スピーカーがラベル付き発声を届ける2.3時間の録音で構成されている。
8つの行動的感情状態を含み、表現力レベルと単語強調ラベルによる自然言語記述とともに0.68%のばらつきで均等に分布している。
論文 参考訳(メタデータ) (2023-05-22T15:32:32Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。