論文の概要: EASL: Multi-Emotion Guided Semantic Disentanglement for Expressive Sign Language Generation
- arxiv url: http://arxiv.org/abs/2511.22135v1
- Date: Thu, 27 Nov 2025 06:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.4173
- Title: EASL: Multi-Emotion Guided Semantic Disentanglement for Expressive Sign Language Generation
- Title(参考訳): EASL: 表現型手話生成のための多感情ガイド付き意味的絡み合い
- Authors: Yanchao Zhao, Jihao Zhu, Yu Liu, Weizhuo Chen, Yuling Yang, Kun Peng,
- Abstract要約: 感情認識型サイン言語EASL(Emotion-Aware Sign Language)を提案する。
意味的特徴と感情的特徴を別々に抽出するために,段階的な訓練を施した感情意味的不絡みモジュールを導入する。
ポーズデコーディングの間、感情表現はセマンティックな相互作用を誘導し、7クラスの感情的自信スコアを持つサインポーズを生成し、感情的表現認識を可能にする。
- 参考スコア(独自算出の注目度): 7.76229483761977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have revolutionized sign language generation by automatically transforming text into high-quality sign language videos, providing accessible communication for the Deaf community. However, existing LLM-based approaches prioritize semantic accuracy while overlooking emotional expressions, resulting in outputs that lack naturalness and expressiveness. We propose EASL (Emotion-Aware Sign Language), a multi-emotion-guided generation architecture for fine-grained emotional integration. We introduce emotion-semantic disentanglement modules with progressive training to separately extract semantic and affective features. During pose decoding, the emotional representations guide semantic interaction to generate sign poses with 7-class emotion confidence scores, enabling emotional expression recognition. Experimental results demonstrate that EASL achieves pose accuracy superior to all compared baselines by integrating multi-emotion information and effectively adapts to diffusion models to generate expressive sign language videos.
- Abstract(参考訳): 大規模言語モデルは、テキストを自動的に高品質の手話ビデオに変換することで手話生成に革命をもたらした。
しかし、既存のLLMベースのアプローチでは、感情表現を見下ろしながら意味的精度を優先し、自然性や表現力に欠けるアウトプットが得られる。
感情認識型サイン言語EASL(Emotion-Aware Sign Language)を提案する。
意味的特徴と感情的特徴を別々に抽出するために,段階的な訓練を施した感情意味的不絡みモジュールを導入する。
ポーズデコーディングの間、感情表現はセマンティックな相互作用を誘導し、7クラスの感情的自信スコアを持つサインポーズを生成し、感情的表現認識を可能にする。
実験により, EASLは, 多感情情報を統合することで, 比較ベースラインに比較してポーズ精度が向上し, 拡散モデルに効果的に適応し, 表現力のある手話ビデオを生成することを示した。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Seeing is Believing: Emotion-Aware Audio-Visual Language Modeling for Expressive Speech Generation [26.389793087374432]
音声合成のためのAVLM(Audio-Visual Language Model)を提案する。
複数のビジュアルエンコーダとマルチモーダル融合戦略を事前学習中に検討し、最も効果的な統合手法を同定する。
論文 参考訳(メタデータ) (2025-08-22T08:08:45Z) - DeepGesture: A conversational gesture synthesis system based on emotions and semantics [0.0]
DeepGestureは拡散に基づくジェスチャー合成フレームワークである。
マルチモーダル信号に条件付けされた表現的共同音声ジェスチャーを生成する。
我々は,DeepGesture が人間らしく,文脈的適切性も向上したジェスチャーを生成することを示す。
論文 参考訳(メタデータ) (2025-07-03T20:04:04Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。
参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。
コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文 参考訳(メタデータ) (2025-04-08T04:34:38Z) - GatedxLSTM: A Multimodal Affective Computing Approach for Emotion Recognition in Conversations [35.63053777817013]
GatedxLSTMは、会話におけるマルチモーダル感情認識(ERC)モデルである。
話者と会話相手の双方の声と書き起こしを考慮し、感情的なシフトを駆動する最も影響力のある文章を特定する。
4クラスの感情分類において,オープンソース手法間でのSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2025-03-26T18:46:18Z) - When Words Smile: Generating Diverse Emotional Facial Expressions from Text [77.1867389815291]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。
我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文 参考訳(メタデータ) (2024-12-03T15:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。