論文の概要: EmoSign: A Multimodal Dataset for Understanding Emotions in American Sign Language
- arxiv url: http://arxiv.org/abs/2505.17090v1
- Date: Tue, 20 May 2025 22:14:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.550044
- Title: EmoSign: A Multimodal Dataset for Understanding Emotions in American Sign Language
- Title(参考訳): EmoSign: アメリカの手話における感情理解のためのマルチモーダルデータセット
- Authors: Phoebe Chua, Cathy Mengying Fang, Takehiko Ohkawa, Raja Kushalnagar, Suranga Nanayakkara, Pattie Maes,
- Abstract要約: EmoSignは、200のAmerican Sign Language (ASL)ビデオに対する感情と感情のラベルを含む最初の手話ビデオデータセットである。
また、感情の手がかりのオープンな記述も収集する。
- 参考スコア(独自算出の注目度): 26.020329504293777
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Unlike spoken languages where the use of prosodic features to convey emotion is well studied, indicators of emotion in sign language remain poorly understood, creating communication barriers in critical settings. Sign languages present unique challenges as facial expressions and hand movements simultaneously serve both grammatical and emotional functions. To address this gap, we introduce EmoSign, the first sign video dataset containing sentiment and emotion labels for 200 American Sign Language (ASL) videos. We also collect open-ended descriptions of emotion cues. Annotations were done by 3 Deaf ASL signers with professional interpretation experience. Alongside the annotations, we include baseline models for sentiment and emotion classification. This dataset not only addresses a critical gap in existing sign language research but also establishes a new benchmark for understanding model capabilities in multimodal emotion recognition for sign languages. The dataset is made available at https://huggingface.co/datasets/catfang/emosign.
- Abstract(参考訳): 感情を伝えるための韻律的特徴が十分に研究されている音声言語とは異なり、手話における感情の指標は理解されていないままであり、クリティカルセッティングにおいてコミュニケーション障壁が生じる。
手話は、表情と手の動きが文法的機能と感情的機能の両方に同時に作用するなど、独特の課題を呈している。
このギャップに対処するために,200本のアメリカ手話(ASL)ビデオに対する感情と感情のラベルを含む最初の手話ビデオデータセットであるEmoSignを紹介した。
また、感情の手がかりのオープンな記述も収集する。
注釈は、プロの解釈経験を持つ3人のDeaf ASLシグナーによってなされた。
アノテーションに加えて、感情分類と感情分類のベースラインモデルも含んでいます。
このデータセットは、既存の手話研究における重要なギャップに対処するだけでなく、手話に対するマルチモーダル感情認識におけるモデル機能を理解するための新しいベンチマークを確立する。
データセットはhttps://huggingface.co/datasets/catfang/emosign.comで公開されている。
関連論文リスト
- EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Prompting [48.56693150755667]
EmoVoiceは、大きな言語モデル(LLM)を利用して、きめ細かい自然言語の感情制御を可能にする、感情制御可能な新しいTSモデルである。
EmoVoice-DBは、表現力のある音声と自然言語記述によるきめ細かい感情ラベルを特徴とする、高品質な40時間感情データセットである。
論文 参考訳(メタデータ) (2025-04-17T11:50:04Z) - Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。
参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。
コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文 参考訳(メタデータ) (2025-04-08T04:34:38Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - Empowering Sign Language Communication: Integrating Sentiment and Semantics for Facial Expression Synthesis [0.7223509567556217]
本稿では,手話のための表情合成に焦点をあてた新しい手法を提案する。
我々の目標は、表情生成に感情情報を統合することで手話生成を改善することである。
論文 参考訳(メタデータ) (2024-08-27T15:55:18Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - SpanEmo: Casting Multi-label Emotion Classification as Span-prediction [15.41237087996244]
マルチラベル感情分類をスパンプレディションとした新しいモデル「SpanEmo」を提案する。
入力文中の複数の共存感情をモデル化することに焦点を当てた損失関数を導入する。
SemEval2018マルチラベル感情データを3つの言語セットで実験した結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-01-25T12:11:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。