論文の概要: SemanticFace: Semantic Facial Action Estimation via Semantic Distillation in Interpretable Space
- arxiv url: http://arxiv.org/abs/2603.14827v1
- Date: Mon, 16 Mar 2026 05:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.061344
- Title: SemanticFace: Semantic Facial Action Estimation via Semantic Distillation in Interpretable Space
- Title(参考訳): セマンティックフェイス: 解釈可能な空間におけるセマンティック蒸留によるセマンティック顔行動推定
- Authors: Zejian Kang, Kai Zheng, Yuanchen Fei, Wentao Yang, Hongyuan Zou, Xiangru Huang,
- Abstract要約: 解釈可能なARKitブレンドシェープ空間における顔行動推定のためのフレームワークである textbfSemanticFace を提案する。
SemanticFaceは、まず、基盤構造ARKit係数から構造化セマンティック監視を導出する。
その後、この知識を多モーダルな大言語モデルに抽出し、画像から解釈可能な顔行動係数を予測する。
- 参考スコア(独自算出の注目度): 5.027040416865858
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Facial action estimation from a single image is often formulated as predicting or fitting parameters in compact expression spaces, which lack explicit semantic interpretability. However, many practical applications, such as avatar control and human-computer interaction, require interpretable facial actions that correspond to meaningful muscle movements. In this work, we propose \textbf{SemanticFace}, a framework for facial action estimation in the interpretable ARKit blendshape space that reformulates coefficient prediction as structured semantic reasoning. SemanticFace adopts a two-stage semantic distillation paradigm: it first derives structured semantic supervision from ground-truth ARKit coefficients and then distills this knowledge into a multimodal large language model to predict interpretable facial action coefficients from images. Extensive experiments demonstrate that language-aligned semantic supervision improves both coefficient accuracy and perceptual consistency, while enabling strong cross-identity generalization and robustness to large domain shifts, including cartoon faces.
- Abstract(参考訳): 単一画像からの顔の行動推定はしばしば、明示的な意味論的解釈性に欠けるコンパクトな表現空間におけるパラメータの予測または適合として定式化される。
しかし、アバター制御や人間とコンピュータの相互作用のような多くの実践的な応用は、意味のある筋肉の動きに対応する解釈可能な顔の動きを必要とする。
本研究では,解釈可能なARKitブレンドシェープ空間における顔行動推定のためのフレームワークである「textbf{SemanticFace}」を提案する。
SemanticFaceは、2段階のセマンティック蒸留パラダイムを採用しており、まずは地上のARKit係数から構造化されたセマンティック・インテリジェンスを導出し、その知識を多モーダルな大言語モデルに蒸留し、画像から解釈可能な顔行動係数を予測する。
広汎な実験により、言語に整合した意味的監督は、係数の精度と知覚的一貫性の両方を改善しつつ、漫画の顔を含む大きな領域シフトに対して強いクロスアイデンティティの一般化と堅牢性を実現している。
関連論文リスト
- SUG-Occ: An Explicit Semantics and Uncertainty Guided Sparse Learning Framework for Real-Time 3D Occupancy Prediction [5.730573889498275]
SuG-Occは明示的なセマンティックスと不確実性ガイドによるスパース学習を可能とした3D職業予測フレームワークである。
まず、ビュー変換時の自由空間からの射影を抑えるために、意味的および不確実性事前を利用する。
次に、幾何整合性を高めるために明示的な符号なし距離符号化を用い、構造的に一貫したスパース3D表現を生成する。
論文 参考訳(メタデータ) (2026-01-16T16:07:38Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - FaceInsight: A Multimodal Large Language Model for Face Perception [69.06084304620026]
本研究では,顔の詳細な情報を提供する多目的顔認識大言語モデル (MLLM) を提案する。
本手法では, 顔情報間の不確かさと決定論的関係の両方をモデル化するために, 顔知識の視覚的・テキスト的アライメントを導入する。
3つの顔認識タスクに対する総合的な実験と分析により、FaceInsightはMLLMと比較した9つの性能を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-04-22T06:31:57Z) - PromptHMR: Promptable Human Mesh Recovery [68.65788167859817]
ヒューマン・ポーズ・アンド・シェイプ(HPS)推定は、混み合ったシーン、対人インタラクション、一視点再構築といった様々なシナリオにおける課題を提示する。
本稿では,空間的および意味的なプロンプトを通じてHPS推定を再構成するトランスフォーマーに基づくプロンプトHMRを提案する。
本手法はシーンコンテキストを維持するために全画像を処理し,複数の入力モダリティを受け入れる。
論文 参考訳(メタデータ) (2025-04-08T19:38:04Z) - Expression-preserving face frontalization improves visually assisted
speech processing [35.647888055229956]
本論文の主な貢献は,非剛性顔の変形を保存したフロンダル化手法である。
深層学習パイプラインに組み込むと、音声認識と音声の不信度スコアがかなりの差で向上することを示す。
論文 参考訳(メタデータ) (2022-04-06T13:22:24Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。