論文の概要: Emotion Recognition in Sign Language Conversation
- arxiv url: http://arxiv.org/abs/2605.23328v1
- Date: Fri, 22 May 2026 07:44:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.248332
- Title: Emotion Recognition in Sign Language Conversation
- Title(参考訳): 手話会話における感情認識
- Authors: Yusong Wang, Keyu Mao, Takao Obi, Minghao Shao, Kotaro Funakoshi,
- Abstract要約: 本稿では,言語ビデオ分析にサインするためにERCタスクを導入し,eJSL Dialogデータセットを提案する。
データセットには、480のユニークな対話で構成された1,920のビデオサンプルが含まれている。
我々は、孤立した視覚ネットワークからマルチモーダル対話型アーキテクチャまで、様々なモデルを用いて、このデータセットの系統的なベンチマークを行う。
- 参考スコア(独自算出の注目度): 9.580297565885376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emotion Recognition in Conversation is a core component of affective computing, while current resources of sign language emotion datasets primarily focus on isolated sentences and lack conversational context. Models trained exclusively on these isolated utterances demonstrate degraded performance in real world scenarios because they cannot utilize historical dialogue flow. To address this structural limitation, we introduce the ERC task to sign language video analysis and propose the eJSL Dialog dataset. Constructed using the scripts from the STUDIES corpus, the dataset contains 1,920 video samples organized into 480 unique dialogues. We conduct systematic benchmarking on this dataset using models ranging from isolated visual networks to multimodal conversational architectures. The results reveal a domain gap when applying generic multimodal conversational emotion recognition models to sign language. These findings demonstrate the explicit need for context aware visual extractors specific to sign language and indicate that expanding the scale of conversational datasets to support large scale pre-training is a necessary next step for future research.
- Abstract(参考訳): 会話における感情認識は感情コンピューティングのコアコンポーネントであり、手話感情データセットの現在のリソースは主に孤立した文に焦点を当てており、会話の文脈が欠如している。
これらの孤立発話に特化して訓練されたモデルは、過去の対話フローを利用できないため、実世界のシナリオにおいて劣化した性能を示す。
この構造的制限に対処するため,言語ビデオ分析にサインするERCタスクを導入し,eJSL Dialogデータセットを提案する。
STUDIESコーパスのスクリプトを使用して構築されたデータセットには、480のユニークな対話で構成された1,920のビデオサンプルが含まれている。
我々は、孤立した視覚ネットワークからマルチモーダル対話型アーキテクチャまで、様々なモデルを用いて、このデータセットの系統的なベンチマークを行う。
その結果,手話に汎用多モーダル会話感情認識モデルを適用する際の領域ギャップが明らかになった。
これらの結果は,手話に特有の文脈認識型視覚抽出器の必要性を明確に示し,大規模事前学習を支援するための対話データセットの規模の拡大が今後の研究の次のステップであることを示している。
関連論文リスト
- Emotion Transcription in Conversation: A Benchmark for Capturing Subtle and Complex Emotional States through Natural Language [3.873439892819606]
会話における感情の書き起こし(ETC)という新しいタスクを提案する。
この課題は、会話の文脈における話者の感情状態を正確に反映した自然言語記述の生成に焦点を当てる。
本研究では,参加者の自己報告された感情状態に注釈を付したテキストベースの対話を自然言語で記述した日本語データセットを構築した。
論文 参考訳(メタデータ) (2026-03-07T10:14:05Z) - Speaking Beyond Language: A Large-Scale Multimodal Dataset for Learning Nonverbal Cues from Video-Grounded Dialogues [19.675409379345172]
テキストとともに非言語的手がかりを理解・生成するためのマルチモーダル言語モデルであるMARSを紹介する。
私たちの重要な革新はVENUSです。VENUSは、タイムアラインなテキスト、表情、ボディランゲージを備えた注釈付きビデオからなる大規模なデータセットです。
論文 参考訳(メタデータ) (2025-06-01T11:07:25Z) - Akan Cinematic Emotions (ACE): A Multimodal Multi-party Dataset for Emotion Recognition in Movie Dialogues [4.894647740789939]
アカン会話感情データセット(Akan Conversation Emotion dataset)は、アフリカ語における最初のマルチモーダル感情対話データセットである。
385の感情ラベル付き対話と6,162の発話が音声、視覚、テキストのモダリティにわたって含まれている。
このデータセットに韻律ラベルがあることは、最初の韻律的に注釈付けされたアフリカの言語データセットにもなった。
論文 参考訳(メタデータ) (2025-02-16T03:24:33Z) - SER_AMPEL: a multi-source dataset for speech emotion recognition of
Italian older adults [58.49386651361823]
SER_AMPELは、音声感情認識のためのマルチソースデータセットである。
イタリア人の高齢者の場合、音声による感情認識の基準を提供する目的で収集される。
このようなデータセットの必要性の証拠は、技術の現状の分析から生まれる。
論文 参考訳(メタデータ) (2023-11-24T13:47:25Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。