論文の概要: Co-Speech Gesture and Facial Expression Generation for Non-Photorealistic 3D Characters
- arxiv url: http://arxiv.org/abs/2506.16159v1
- Date: Thu, 19 Jun 2025 09:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.013066
- Title: Co-Speech Gesture and Facial Expression Generation for Non-Photorealistic 3D Characters
- Title(参考訳): 非フォトリアリスティックな3次元キャラクタのための共音声ジェスチャと顔表情生成
- Authors: Taisei Omine, Naoyuki Kawabata, Fuminori Homma,
- Abstract要約: 本研究では,非フォトリアリスティックな文字に特有の誇張表現を含む感情表現手法を提案する。
ユーザスタディでは、既存研究と比較して、複数の面で大きな改善が見られた。
- 参考スコア(独自算出の注目度): 1.0923877073891446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of conversational AI, research on bodily expressions, including gestures and facial expressions, has also progressed. However, many existing studies focus on photorealistic avatars, making them unsuitable for non-photorealistic characters, such as those found in anime. This study proposes methods for expressing emotions, including exaggerated expressions unique to non-photorealistic characters, by utilizing expression data extracted from comics and dialogue-specific semantic gestures. A user study demonstrated significant improvements across multiple aspects when compared to existing research.
- Abstract(参考訳): 会話型AIの進歩に伴い、ジェスチャーや表情を含む身体表現の研究も進んでいる。
しかし、既存の多くの研究は、フォトリアリスティックなアバターに焦点を当てており、アニメに見られるような非フォトリアリスティックなキャラクターには適さない。
本研究では,漫画から抽出した表現データと対話固有の意味的ジェスチャーを利用して,非フォトリアリスティックな文字に特有の誇張表現を含む感情表現手法を提案する。
ユーザスタディでは、既存研究と比較して、複数の面で大きな改善が見られた。
関連論文リスト
- FaceSpeak: Expressive and High-Quality Speech Synthesis from Human Portraits of Different Styles [29.185409608539747]
視覚駆動型テキスト音声(TTS)学者は、実際の顔について調査を行った。
そこで我々は,多様なイメージスタイルから有能なアイデンティティ特性と感情表現を抽出する,新しいFaceSpeakアプローチを提案する。
余分な情報を緩和し、結果として文字のペルソナと密接に一致した音声が合成される。
論文 参考訳(メタデータ) (2025-01-02T02:00:15Z) - Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。
視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。
感情-中性変換を用いた知識強化FER法を提案する。
論文 参考訳(メタデータ) (2024-09-13T07:28:57Z) - Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。
現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。
顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文 参考訳(メタデータ) (2024-07-25T18:29:48Z) - CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。
主な課題は、データ制限、唇のアライメント、表情の自然さである。
本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T11:19:15Z) - Impressions: Understanding Visual Semiotics and Aesthetic Impact [66.40617566253404]
画像のセミオティックスを調べるための新しいデータセットであるImpressionsを提示する。
既存のマルチモーダル画像キャプションと条件付き生成モデルは、画像に対する可視的応答をシミュレートするのに苦労していることを示す。
このデータセットは、微調整と少数ショット適応により、画像の印象や美的評価をモデル化する能力を大幅に改善する。
論文 参考訳(メタデータ) (2023-10-27T04:30:18Z) - GaFET: Learning Geometry-aware Facial Expression Translation from
In-The-Wild Images [55.431697263581626]
本稿では,パラメトリックな3次元顔表現をベースとした新しい顔表情翻訳フレームワークを提案する。
我々は、最先端の手法と比較して、高品質で正確な表情伝達結果を実現し、様々なポーズや複雑なテクスチャの適用性を実証する。
論文 参考訳(メタデータ) (2023-08-07T09:03:35Z) - ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer [59.05857591535986]
様々な感情を「感情弧」として表現する時系列に焦点をあてた画像物語を生成するモデルViNTERを提案する。
手動評価と自動評価の両方の実験結果を示す。
論文 参考訳(メタデータ) (2022-02-15T10:53:08Z) - Neural Emotion Director: Speech-preserving semantic control of facial
expressions in "in-the-wild" videos [31.746152261362777]
In-the-wild」ビデオにおいて,アクターの感情状態をリアルに操作するための新しい深層学習手法を提案する。
提案手法は,頭部のポーズや表情から顔のアイデンティティを確実に切り離すことのできる,入力シーンにおけるアクターのパラメトリックな3次元顔表現に基づく。
次に、新しいディープドメイン翻訳フレームワークを使用し、顔の表情を一貫した、そして妥当な方法で変更し、そのダイナミクスを考慮に入れます。
論文 参考訳(メタデータ) (2021-12-01T15:55:04Z) - Real-time Facial Expression Recognition "In The Wild'' by Disentangling
3D Expression from Identity [6.974241731162878]
本稿では,1枚のRGB画像から人間の感情認識を行う新しい手法を提案する。
顔のダイナミックス、アイデンティティ、表情、外観、3Dポーズのバリエーションに富んだ大規模な顔ビデオデータセットを構築した。
提案するフレームワークは毎秒50フレームで動作し、3次元表現変動のパラメータを頑健に推定することができる。
論文 参考訳(メタデータ) (2020-05-12T01:32:55Z) - Learning to Augment Expressions for Few-shot Fine-grained Facial
Expression Recognition [98.83578105374535]
顔表情データベースF2EDについて述べる。
顔の表情は119人から54人まで、200万枚以上の画像が含まれている。
実世界のシナリオでは,不均一なデータ分布やサンプルの欠如が一般的であるので,数発の表情学習の課題を評価する。
顔画像合成のための統合されたタスク駆動型フレームワークであるComposeal Generative Adversarial Network (Comp-GAN) 学習を提案する。
論文 参考訳(メタデータ) (2020-01-17T03:26:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。