Fugu-MT 論文翻訳(概要): MELD-ST: An Emotion-aware Speech Translation Dataset

関連論文リスト

EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis [61.87711517626139]
EmoVerseは、解釈可能な視覚的感情分析を可能にする、大規模なオープンソースデータセットである。 219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションを含んでいる。
論文参考訳（メタデータ） (2025-11-16T11:16:50Z)
EmoTale: An Enacted Speech-emotion Dataset in Danish [4.228593407506635]
エモテール(EmoTale)は、デンマーク語と英語の音声録音のコーパスである。我々は,自己教師付き音声モデル埋め込みとopenSMILE特徴抽出器を用いて,EmoTaleのSERモデルと参照データセットを開発した。最良のモデルでは、エモテール・コーパスで64.1%の未加重平均リコール(UAR)を達成する。
論文参考訳（メタデータ） (2025-08-20T09:01:54Z)
EmoHopeSpeech: An Annotated Dataset of Emotions and Hope Speech in English and Arabic [0.021665899581403608]
本研究では,アラビア語の23,456項目と英語の10,036項目からなるバイリンガルデータセットを提案する。このデータセットは、感情の強さ、複雑さ、原因を捉える包括的なアノテーションと、希望のスピーチのための詳細な分類とサブカテゴリを提供する。
論文参考訳（メタデータ） (2025-05-17T11:21:58Z)
UDDETTS: Unifying Discrete and Dimensional Emotions for Controllable Emotional Text-to-Speech [61.989360995528905]
制御可能な感情的TTSのための離散的感情と次元的感情を統一する普遍的なフレームワークであるUDDETTSを提案する。このモデルは、次元的感情記述のための解釈可能なArousal-Dominance-Valence(ADV)空間を導入し、離散的な感情ラベルまたは非線形に定量化されたADV値によって駆動される感情制御をサポートする。実験の結果, UDDETTSは3次元の線形感情制御を実現し, エンドツーエンドの感情音声合成能力に優れていた。
論文参考訳（メタデータ） (2025-05-15T12:57:19Z)
EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。 EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文参考訳（メタデータ） (2025-04-17T11:50:04Z)
SemEval-2025 Task 11: Bridging the Gap in Text-Based Emotion Detection [76.18321723846616]
タスクは7つの異なる言語ファミリーから30以上の言語をカバーしている。データインスタンスは6つの感情クラスでマルチラベルされており、感情の強さに注釈を付けた11言語にデータセットが追加されている。参加者は, (a) マルチラベル感情検出, (b) 感情強度スコア検出, (c) 言語間感情検出の3つのトラックでラベルの予測を依頼された。
論文参考訳（メタデータ） (2025-03-10T12:49:31Z)
Team A at SemEval-2025 Task 11: Breaking Language Barriers in Emotion Detection with Multilingual Models [0.06138671548064355]
本稿では,チームAからSemEval 2025タスク11に提出された「テキストベース感情検出におけるギャップを埋める」システムについて述べる。このタスクは、テキストスニペットから話者の知覚された感情を識別することを含み、各インスタンスには喜び、悲しみ、恐怖、怒り、驚き、嫌悪の6つの感情の1つが注がれた。検討した様々なアプローチの中で, マルチリンガル埋め込みと完全連結層を組み合わせることで, 最高の性能を実現した。
論文参考訳（メタデータ） (2025-02-27T07:59:01Z)
BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。 BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文参考訳（メタデータ） (2025-02-17T15:39:50Z)
Enriching Multimodal Sentiment Analysis through Textual Emotional Descriptions of Visual-Audio Content [56.62027582702816]
マルチモーダル・センティメント・アナリティクスは、テキスト、音声、視覚データを融合することで人間の感情を解き放つことを目指している。しかし、音声やビデオの表現の中で微妙な感情的なニュアンスを認識することは、恐ろしい挑戦だ。テキストの感情記述に基づくプログレッシブ・フュージョン・フレームワークであるDEVAを紹介する。
論文参考訳（メタデータ） (2024-12-12T11:30:41Z)
When Words Smile: Generating Diverse Emotional Facial Expressions from Text [72.19705878257204]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文参考訳（メタデータ） (2024-12-03T15:39:05Z)
Generative Emotion Cause Explanation in Multimodal Conversations [23.39751445330256]
我々は、新しいタスク textbfMultimodal textbfConversation textbfEmotion textbfCause textbfExplanation (MCECE)を提案する。マルチモーダル会話シナリオにおいて、ターゲット発話に対する感情的原因を詳細に説明することを目的としている。 FAME-Netという新しいアプローチが提案され、ビデオの表情を通して、視覚データを解析し、感情を正確に解釈するLarge Language Models(LLMs)の力を利用する。
論文参考訳（メタデータ） (2024-11-01T09:16:30Z)
Emotional Dimension Control in Language Model-Based Text-to-Speech: Spanning a Broad Spectrum of Human Emotions [37.075331767703986]
現在の感情的テキスト音声システムは、人間の感情の幅広い範囲を模倣する際の課題に直面している。本稿では,喜び,覚醒,支配の制御を容易にするTTSフレームワークを提案する。 TTSトレーニング中に感情的な音声データを必要とせずに、感情的なスタイルの多様性を合成することができる。
論文参考訳（メタデータ） (2024-09-25T07:16:16Z)
Usefulness of Emotional Prosody in Neural Machine Translation [1.0205541448656992]
本稿では,音声中の感情を自動的に認識する外部ソースを追加することで,翻訳品質を向上させることを提案する。この研究は、各感情が感情の重なり合う特定の語彙と関連しているという仮定によって動機付けられている。 NMTシステムに感情情報、特に覚醒情報を統合することで、より良い翻訳が可能になることを示す。
論文参考訳（メタデータ） (2024-04-27T18:04:28Z)
English Prompts are Better for NLI-based Zero-Shot Emotion Classification than Target-Language Prompts [17.099269597133265]
たとえデータが異なる言語であっても、英語のプロンプトを使う方が一貫して良いことを示す。自然言語推論に基づく言語モデルを用いた実験は、データが異なる言語である場合でも、英語のプロンプトを使う方が一貫して良いことを示す。
論文参考訳（メタデータ） (2024-02-05T17:36:19Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
SER_AMPEL: a multi-source dataset for speech emotion recognition of Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文参考訳（メタデータ） (2023-11-24T13:47:25Z)
Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion [87.18073195745914]
人間の感情が感情の予測において有意であると考えられる特徴とどのように相関するかを検討する。 EmoTriggerを用いて、感情のトリガーを識別する大規模言語モデルの能力を評価する。分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。
論文参考訳（メタデータ） (2023-11-16T06:20:13Z)
Effect of Attention and Self-Supervised Speech Embeddings on Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文参考訳（メタデータ） (2023-08-28T07:11:27Z)
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文参考訳（メタデータ） (2021-06-17T08:34:21Z)
Limited Data Emotional Voice Conversion Leveraging Text-to-Speech: Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文参考訳（メタデータ） (2021-03-31T04:56:14Z)
Seen and Unseen emotional style transfer for voice conversion with a new emotional speech dataset [84.53659233967225]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、音声中の感情的韻律を変換することを目的としている。可変自動符号化ワッサーシュタイン生成対向ネットワーク(VAW-GAN)に基づく新しいフレームワークを提案する。提案するフレームワークは,ベースラインフレームワークを一貫して上回り,優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-28T07:16:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

論文の概要: MELD-ST: An Emotion-aware Speech Translation Dataset

関連論文リスト