論文の概要: Including Facial Expressions in Contextual Embeddings for Sign Language
Generation
- arxiv url: http://arxiv.org/abs/2202.05383v1
- Date: Fri, 11 Feb 2022 00:47:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 06:54:26.799808
- Title: Including Facial Expressions in Contextual Embeddings for Sign Language
Generation
- Title(参考訳): 手話生成のための文脈埋め込みにおける顔表現
- Authors: Carla Viegas, Mert \.Inan, Lorna Quandt, Malihe Alikhani
- Abstract要約: 我々は,手話生成システムの性能に及ぼすテキスト,光沢,表情の関係をモデル化する効果について検討した。
本研究は,手話生成において顔面動作単位を最初に用いた人物として,手話の強度を表現するために顔面筋活動が果たす役割について考察する。
- 参考スコア(独自算出の注目度): 11.794563225903813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art sign language generation frameworks lack expressivity and
naturalness which is the result of only focusing manual signs, neglecting the
affective, grammatical and semantic functions of facial expressions. The
purpose of this work is to augment semantic representation of sign language
through grounding facial expressions. We study the effect of modeling the
relationship between text, gloss, and facial expressions on the performance of
the sign generation systems. In particular, we propose a Dual Encoder
Transformer able to generate manual signs as well as facial expressions by
capturing the similarities and differences found in text and sign gloss
annotation. We take into consideration the role of facial muscle activity to
express intensities of manual signs by being the first to employ facial action
units in sign language generation. We perform a series of experiments showing
that our proposed model improves the quality of automatically generated sign
language.
- Abstract(参考訳): 最先端の手話生成フレームワークは、表情の感情的、文法的、意味的な機能を無視し、手話のみに焦点を当てた結果、表現性と自然性を欠いている。
本研究の目的は,表情の接地による手話の意味表現の強化である。
本研究は,手話生成システムの性能に及ぼすテキスト,光沢,表情の関係のモデル化の影響について検討する。
特に,テキストや手話の注釈にみられる類似点や相違点を捉えることで,手話や表情を生成できるデュアルエンコーダトランスを提案する。
本研究は,手話生成において顔面動作単位を最初に用いた人物として,手話の強度を表現するために顔面筋活動が果たす役割について考察する。
提案したモデルが自動生成手話の品質を向上させることを示す一連の実験を行った。
関連論文リスト
- Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - Cross-Attention Based Influence Model for Manual and Nonmanual Sign Language Analysis [4.815056447245669]
手(手)と非手動マーカー(NMM)の両方が、アメリカ手話(ASL)におけるフレーズの完全な意味を提供するのに重要である。
本稿では,2ストリームエンコーダからなる手話翻訳アーキテクチャについて述べる。一方のエンコーダは顔を扱うが,もう一方のエンコーダは上半身を扱う(手)。
本稿では,各入力モードが出力に与える影響を定量化するのに有用な,新しい並列クロスアテンション復号機構を提案する。
論文 参考訳(メタデータ) (2024-09-12T15:55:39Z) - Empowering Sign Language Communication: Integrating Sentiment and Semantics for Facial Expression Synthesis [0.7223509567556217]
本稿では,手話のための表情合成に焦点をあてた新しい手法を提案する。
我々の目標は、表情生成に感情情報を統合することで手話生成を改善することである。
論文 参考訳(メタデータ) (2024-08-27T15:55:18Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - Self-Supervised Representation Learning with Spatial-Temporal Consistency for Sign Language Recognition [96.62264528407863]
本研究では,空間的時間的整合性を通じてリッチな文脈を探索する自己教師付きコントラスト学習フレームワークを提案する。
動きと関節のモーダル性の相補性に着想を得て,手話モデルに一階動作情報を導入する。
提案手法は,4つの公開ベンチマークの広範な実験により評価され,新しい最先端性能と顕著なマージンを実現している。
論文 参考訳(メタデータ) (2024-06-15T04:50:19Z) - SignMusketeers: An Efficient Multi-Stream Approach for Sign Language Translation at Scale [22.49602248323602]
手話ビデオ処理における永続的な課題は、手話表現の学習方法である。
提案手法は,シグナーの顔,手,体姿勢など,署名ビデオの最も関連性の高い部分のみに焦点を当てる。
我々のアプローチは、個々のフレームから(ビデオシーケンスではなく)学習することに基づいており、手話事前学習よりもずっと効率的である。
論文 参考訳(メタデータ) (2024-06-11T03:00:41Z) - Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers [57.1091606948826]
我々はこれらの課題に対処するため,ポーカー・フェイス・ビジョン・トランスフォーマー (PF-ViT) と呼ばれる新しいFERモデルを提案する。
PF-ViTは、対応するポーカーフェースを生成して、乱れを認識できない感情を静的な顔画像から分離し、認識することを目的としている。
PF-ViTはバニラビジョントランスフォーマーを使用し、そのコンポーネントは大規模な表情データセット上でMasked Autoencodeerとして事前トレーニングされている。
論文 参考訳(メタデータ) (2022-07-22T13:39:06Z) - AU-Expression Knowledge Constrained Representation Learning for Facial
Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。
課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-12-29T03:42:04Z) - Facial Expression Phoenix (FePh): An Annotated Sequenced Dataset for
Facial and Emotion-Specified Expressions in Sign Language [0.32116198597240836]
3000ドル以上の顔画像を含む手話の文脈で, 注釈付き表情データセットを導入する。
現在存在するほとんどの表情データセットとは異なり、FePhは頭ポーズ、向き、動きの異なる半青の顔画像を提供する。
このデータセットに注釈をつけるには、「sad」、「surprise」、「fear」、「angry」、「neutral」、「disgust」、「happy」の7つの基本的な感情の第一、第二、第三のダイアドを考える。
論文 参考訳(メタデータ) (2020-03-03T03:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。