論文の概要: Empowering Sign Language Communication: Integrating Sentiment and Semantics for Facial Expression Synthesis
- arxiv url: http://arxiv.org/abs/2408.15159v1
- Date: Tue, 27 Aug 2024 15:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 13:13:36.192218
- Title: Empowering Sign Language Communication: Integrating Sentiment and Semantics for Facial Expression Synthesis
- Title(参考訳): 手話コミュニケーションの強化:顔表情合成のための感覚と意味の統合
- Authors: Rafael Azevedo, Thiago Coutinho, João Ferreira, Thiago Gomes, Erickson Nascimento,
- Abstract要約: 本稿では,手話のための表情合成に焦点をあてた新しい手法を提案する。
我々の目標は、表情生成に感情情報を統合することで手話生成を改善することである。
- 参考スコア(独自算出の注目度): 0.7223509567556217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Translating written sentences from oral languages to a sequence of manual and non-manual gestures plays a crucial role in building a more inclusive society for deaf and hard-of-hearing people. Facial expressions (non-manual), in particular, are responsible for encoding the grammar of the sentence to be spoken, applying punctuation, pronouns, or emphasizing signs. These non-manual gestures are closely related to the semantics of the sentence being spoken and also to the utterance of the speaker's emotions. However, most Sign Language Production (SLP) approaches are centered on synthesizing manual gestures and do not focus on modeling the speakers expression. This paper introduces a new method focused in synthesizing facial expressions for sign language. Our goal is to improve sign language production by integrating sentiment information in facial expression generation. The approach leverages a sentence sentiment and semantic features to sample from a meaningful representation space, integrating the bias of the non-manual components into the sign language production process. To evaluate our method, we extend the Frechet Gesture Distance (FGD) and propose a new metric called Frechet Expression Distance (FED) and apply an extensive set of metrics to assess the quality of specific regions of the face. The experimental results showed that our method achieved state of the art, being superior to the competitors on How2Sign and PHOENIX14T datasets. Moreover, our architecture is based on a carefully designed graph pyramid that makes it simpler, easier to train, and capable of leveraging emotions to produce facial expressions.
- Abstract(参考訳): 口頭言語からの文章を手動と非手動のジェスチャーの列に翻訳することは、聴覚障害や難聴者のためのより包括的な社会を構築する上で重要な役割を担っている。
特に、顔の表情(非マニュアル)は、話される文の文法を符号化し、句読点、代名詞、強調記号を適用している。
これらの非手動ジェスチャーは、話されている文の意味と、話者の感情の発声と密接に関連している。
しかしながら、ほとんどの手話生成(SLP)アプローチは手動ジェスチャーの合成に重点を置いており、話者表現のモデリングに重点を置いていない。
本稿では,手話のための表情合成に焦点をあてた新しい手法を提案する。
我々の目標は、表情生成に感情情報を統合することで手話生成を改善することである。
このアプローチは文の感情と意味的特徴を活用して意味のある表現空間からサンプルし、手作業以外のコンポーネントのバイアスを手話生成プロセスに統合する。
本手法を評価するために,Frechet Gesture Distance (FGD)を拡張し,Frechet Expression Distance (FED) と呼ばれる新しい指標を提案し,顔の特定領域の品質を評価するために幅広い指標を適用した。
実験の結果,本手法は,How2SignとPHOENIX14Tデータセットの競合よりも優れていることがわかった。
さらに、我々のアーキテクチャは、よりシンプルで、訓練が容易で、感情を利用して表情を生成することができる、慎重に設計されたグラフピラミッドに基づいている。
関連論文リスト
- Classification in Japanese Sign Language Based on Dynamic Facial Expressions [0.0]
日本語手話(JSL)認識の研究は,データセットの欠如により限られている。
JSLでは、肯定的な文や質問などの文型は表情によって区別される。
提案手法は,ニューラルネットワークを用いて顔の特徴を分析し,文型を分類する。
論文 参考訳(メタデータ) (2024-11-10T03:34:34Z) - Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - Sign Language Recognition Based On Facial Expression and Hand Skeleton [2.5879170041667523]
我々は手と表情の骨格的特徴を統合した手話認識ネットワークを提案する。
表情情報を取り入れることで、手話認識の精度と堅牢性が向上する。
論文 参考訳(メタデータ) (2024-07-02T13:02:51Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Including Facial Expressions in Contextual Embeddings for Sign Language
Generation [11.794563225903813]
我々は,手話生成システムの性能に及ぼすテキスト,光沢,表情の関係をモデル化する効果について検討した。
本研究は,手話生成において顔面動作単位を最初に用いた人物として,手話の強度を表現するために顔面筋活動が果たす役割について考察する。
論文 参考訳(メタデータ) (2022-02-11T00:47:22Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。