論文の概要: Color-based Emotion Representation for Speech Emotion Recognition
- arxiv url: http://arxiv.org/abs/2602.16256v1
- Date: Wed, 18 Feb 2026 08:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.545859
- Title: Color-based Emotion Representation for Speech Emotion Recognition
- Title(参考訳): 色に基づく感情表現による音声認識
- Authors: Ryotaro Nagase, Ryoichi Takashima, Yoichi Yamashita,
- Abstract要約: 我々は、感情を連続的かつ解釈可能なスコアとして表現するために、色、彩度、価値などの色属性に焦点を当てる。
クラウドソーシングにより,感情音声コーパスに色属性を付与し,分析を行った。
我々は、機械学習とディープラーニングを用いて、SERにおける色属性の回帰モデルを構築し、色属性の回帰と感情分類のマルチタスク学習について検討した。
- 参考スコア(独自算出の注目度): 5.386017591282176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition (SER) has traditionally relied on categorical or dimensional labels. However, this technique is limited in representing both the diversity and interpretability of emotions. To overcome this limitation, we focus on color attributes, such as hue, saturation, and value, to represent emotions as continuous and interpretable scores. We annotated an emotional speech corpus with color attributes via crowdsourcing and analyzed them. Moreover, we built regression models for color attributes in SER using machine learning and deep learning, and explored the multitask learning of color attribute regression and emotion classification. As a result, we demonstrated the relationship between color attributes and emotions in speech, and successfully developed color attribute regression models for SER. We also showed that multitask learning improved the performance of each task.
- Abstract(参考訳): 音声感情認識(SER)は伝統的に分類的・次元的なラベルに依存してきた。
しかし、この手法は感情の多様性と解釈可能性の両方を表現することに限られている。
この制限を克服するために、我々は感情を連続的かつ解釈可能なスコアとして表現するために、色、彩度、値などの色属性に焦点を当てる。
クラウドソーシングにより,感情音声コーパスに色属性を付与し,分析を行った。
さらに、機械学習とディープラーニングを用いて、SERにおける色属性の回帰モデルを構築し、色属性の回帰と感情分類のマルチタスク学習について検討した。
その結果、音声における色属性と感情の関係を実証し、SERにおける色属性回帰モデルの開発に成功した。
また,マルチタスク学習により各タスクのパフォーマンスが向上することを示した。
関連論文リスト
- Semantic Differentiation in Speech Emotion Recognition: Insights from Descriptive and Expressive Speech Roles [4.516156697420418]
音声感情認識(SER)は、人間とコンピュータの相互作用を改善するために不可欠である。
音声の文脈的内容を表す記述的意味論と、話者の感情状態を反映する表現的意味論とを区別する。
我々の発見は、人間とAIのインタラクションにおけるSERの応用を知らせ、よりコンテキスト対応のAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2025-10-03T14:42:35Z) - Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Decoding Emotions in Abstract Art: Cognitive Plausibility of CLIP in Recognizing Color-Emotion Associations [1.0659364666674607]
本研究では,抽象的な視覚芸術によって誘発される感情の認識において,事前訓練されたマルチモーダルモデルであるCLIPの認知的妥当性について検討した。
我々は、人間のアノテータによって提供される感情ラベルとこれらのラベルのテキスト的有理性を含む画像からなるデータセットを用いる。
我々は、合理性の言語分析、画像と合理性のゼロショット感情分類、類似性に基づく感情の予測の適用、色と感情の関連性の調査を行う。
論文 参考訳(メタデータ) (2024-05-10T08:45:23Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - AffectEcho: Speaker Independent and Language-Agnostic Emotion and Affect
Transfer for Speech Synthesis [13.918119853846838]
Affectは、原子価、覚醒、強さを含む感情的特徴であり、真正な会話を可能にする重要な属性である。
本稿では,Vector Quantized Codebookを用いた感情翻訳モデルAffectEchoを提案する。
それぞれの話者に特有のアイデンティティ、スタイル、感情のリズムを保ちながら、生成した音声の感情を制御する方法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-16T06:28:29Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Enhancing Cognitive Models of Emotions with Representation Learning [58.2386408470585]
本稿では,きめ細かな感情の埋め込み表現を生成するための,新しいディープラーニングフレームワークを提案する。
本フレームワークは,コンテキスト型埋め込みエンコーダとマルチヘッド探索モデルを統合する。
本モデルは共感対話データセット上で評価され,32種類の感情を分類する最新結果を示す。
論文 参考訳(メタデータ) (2021-04-20T16:55:15Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z) - Emosaic: Visualizing Affective Content of Text at Varying Granularity [0.0]
エモザイク(Emosaic)は、テキストの感情的なトーンを可視化するツールである。
我々は、人間の感情の3次元モデルを構築した。
論文 参考訳(メタデータ) (2020-02-24T07:25:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。