Fugu-MT 論文翻訳(概要): AU Codes, Language, and Synthesis: Translating Anatomy to Text for Facial Behavior Synthesis

論文の概要: AU Codes, Language, and Synthesis: Translating Anatomy to Text for Facial Behavior Synthesis

arxiv url: http://arxiv.org/abs/2603.18588v1
Date: Thu, 19 Mar 2026 07:54:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-20 17:19:06.018442
Title: AU Codes, Language, and Synthesis: Translating Anatomy to Text for Facial Behavior Synthesis
Title（参考訳）: AU符号・言語・合成:顔行動合成のための解剖学をテキストに翻訳する
Authors: Jiahe Wang, Cong Liang, Xuandong Huang, Yuxin Wang, Xin Yun, Yi Wu, Yanan Chang, Shangfei Wang,
Abstract要約: Action Units (AUs) は、テキスト・ツー・フェイス・モデルのより正確で解剖学的に基礎付けられた代替品を提供する。現在のAUベースのアプローチでは、AUを1ホットベクトルとしてエンコードし、複合表現を個々のAUの単純な線形結合としてモデル化する。本稿では,AUの自然言語記述を通して顔の動作を表現する新しい手法を提案する。
参考スコア（独自算出の注目度）: 15.171985688410318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Facial behavior synthesis remains a critical yet underexplored challenge. While text-to-face models have made progress, they often rely on coarse emotion categories, which lack the nuance needed to capture the full spectrum of human nonverbal communication. Action Units (AUs) provide a more precise and anatomically grounded alternative. However, current AU-based approaches typically encode AUs as one-hot vectors, modeling compound expressions as simple linear combinations of individual AUs. This linearity becomes problematic when handling conflicting AUs--defined as those which activate the same facial muscle with opposing actions. Such cases lead to anatomically implausible artifacts and unnatural motion superpositions. To address this, we propose a novel method that represents facial behavior through natural language descriptions of AUs. This approach preserves the expressiveness of the AU framework while enabling explicit modeling of complex and conflicting AUs. It also unlocks the potential of modern text-to-image models for high-fidelity facial synthesis. Supporting this direction, we introduce BP4D-AUText, the first large-scale text-image paired dataset for complex facial behavior. It is synthesized by applying a rule-based Dynamic AU Text Processor to the BP4D and BP4D+ datasets. We further propose VQ-AUFace, a generative model that leverages facial structural priors to synthesize realistic and diverse facial behaviors from text. Extensive quantitative experiments and user studies demonstrate that our approach significantly outperforms existing methods. It excels in generating facial expressions that are anatomically plausible, behaviorally rich, and perceptually convincing, particularly under challenging conditions involving conflicting AUs.
Abstract（参考訳）: 顔の行動合成は依然として重要な課題だが、未発見の課題である。テキスト・ツー・フェイスのモデルは進歩してきたが、人間の非言語コミュニケーションの全スペクトルを捉えるのに必要なニュアンスを欠く、粗い感情カテゴリーに依存していることが多い。アクションユニット(AUs)は、より正確で解剖学的に基礎付けられた代替手段を提供する。しかし、現在のAUベースのアプローチでは、AUを1ホットベクトルとしてエンコードし、複合表現を個々のAUの単純な線形結合としてモデル化する。この線形性は、対立するAUを扱う際に問題となる。このようなケースは解剖学的に不明瞭なアーティファクトや不自然な運動重畳を引き起こす。そこで本稿では,AUの自然言語記述を通して顔の動作を表現する新しい手法を提案する。このアプローチはAUフレームワークの表現性を保ちながら、複雑で矛盾するAUの明示的なモデリングを可能にする。また、高忠実度顔合成のためのモダンテキスト・ツー・イメージモデルの可能性を解き放つ。この方向を支援するために,BP4D-AUTextを導入した。 BP4DおよびBP4D+データセットにルールベースの動的AUテキストプロセッサを適用して合成する。さらに,VQ-AUFaceは,テキストから現実的で多様な顔の振る舞いを合成するために,顔の構造的先行を生かした生成モデルである。大規模な定量的実験とユーザスタディにより、我々のアプローチが既存の手法よりも大幅に優れていることが実証された。解剖学的に妥当で、行動に富み、知覚的に説得力のある表情を生成できる。

関連論文リスト

MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。 MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文参考訳（メタデータ） (2026-03-03T18:59:51Z)
AUHead: Realistic Emotional Talking Head Generation via Action Units Control [67.20660861826357]
リアルなトークヘッドビデオ生成は、仮想アバター、映画制作、インタラクティブシステムにとって重要である。現在の方法は、きめ細かい感情制御が欠如しているため、ニュアンス的な感情表現に苦慮している。本稿では、音声から感情制御、すなわちアクションユニット(AU)をアンタングルし、制御可能な生成を実現するための新しい2段階手法を提案する。
論文参考訳（メタデータ） (2026-02-10T08:45:51Z)
Knowledge-Enhanced Facial Expression Recognition with Emotional-to-Neutral Transformation [66.53435569574135]
既存の表情認識法は、通常、個別のラベルを使って訓練済みのビジュアルエンコーダを微調整する。視覚言語モデルによって生成されるテキスト埋め込みの豊富な知識は、識別的表情表現を学ぶための有望な代替手段である。感情-中性変換を用いた知識強化FER法を提案する。
論文参考訳（メタデータ） (2024-09-13T07:28:57Z)
How Do You Perceive My Face? Recognizing Facial Expressions in Multi-Modal Context by Modeling Mental Representations [5.895694050664867]
本稿では,単純な分類タスクを超越した新しい表情分類手法を提案する。本モデルでは,認識された顔を正確に分類し,文脈で顔を観察する際,人間によって知覚される対応する心的表現を合成する。本研究では,人間の心的表現の近似を効果的に生成することを示す。
論文参考訳（メタデータ） (2024-09-04T09:32:40Z)
Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文参考訳（メタデータ） (2024-07-25T18:29:48Z)
CSTalk: Correlation Supervised Speech-driven 3D Emotional Facial Animation Generation [13.27632316528572]
音声駆動の3D顔アニメーション技術は長年開発されてきたが、実用的応用には期待できない。主な課題は、データ制限、唇のアライメント、表情の自然さである。本稿では,顔の動きの異なる領域間の相関をモデル化し,生成モデルの訓練を監督し,現実的な表現を生成するCSTalkという手法を提案する。
論文参考訳（メタデータ） (2024-04-29T11:19:15Z)
Pose-Controllable 3D Facial Animation Synthesis using Hierarchical Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文参考訳（メタデータ） (2023-02-24T09:36:31Z)
CoNFies: Controllable Neural Face Avatars [10.41057307836234]
顔自己画像(CoNFies)の制御可能な神経表現顔自己画像(CoNFies)に対する制御可能なニューラル表現を提案する。自動顔行動認識(AFAR)を用いて、表情をアクション単位(AU)とその強度の組み合わせとして特徴付ける。
論文参考訳（メタデータ） (2022-11-16T01:43:43Z)
AnyFace: Free-style Text-to-Face Synthesis and Manipulation [41.61972206254537]
本稿では,AnyFaceという無料のテキスト・ツー・フェイス方式を提案する。 AnyFaceは、メタバース、ソーシャルメディア、化粧品、鑑識など、より広範なオープンワールドアプリケーションを可能にする。
論文参考訳（メタデータ） (2022-03-29T08:27:38Z)
AU-Expression Knowledge Constrained Representation Learning for Facial Expression Recognition [79.8779790682205]
本稿では,auアノテーションを使わずにau表現を学習し,表情認識を容易にするau表現知識制約表現学習(aue-crl)フレームワークを提案する。課題のある非制御データセットの実験を行い,提案されたフレームワークが現状の手法よりも優れていることを実証する。
論文参考訳（メタデータ） (2020-12-29T03:42:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。