Fugu-MT 論文翻訳(概要): Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

論文の概要: Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

arxiv url: http://arxiv.org/abs/2603.07093v1
Date: Sat, 07 Mar 2026 08:03:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:13.807859
Title: Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction
Title（参考訳）: 人間の嗜好を考慮した顔面表情生成と自然なダイアドインタラクション
Authors: Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia,
Abstract要約: 本稿では,人間の嗜好に合わせた表情生成手法を提案する。本手法の鍵となるのは、行動学習プロセスとして、アイデンティティ非依存の表情の生成をフレーミングすることである。 2つのベンチマーク実験により,顔の表情と人の好みを効果的に一致させることが実証された。
参考スコア（独自算出の注目度）: 53.12445980832305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Achieving natural dyadic interaction requires generating facial expressions that are emotionally appropriate and socially aligned with human preference. Human feedback offers a compelling mechanism to guide such alignment, yet how to effectively incorporate this feedback into facial expression generation remains underexplored. In this paper, we propose a facial expression generation method aligned with human preference by leveraging human feedback to produce contextually and emotionally appropriate expressions for natural dyadic interaction. A key to our method is framing the generation of identity-independent facial expressions as an action learning process, allowing human feedback to assess their validity free from visual or identity bias. We establish a closed feedback loop in which listener expressions dynamically respond to evolving conversational cues of the speaker. Concretely, we train a vision-language-action model via supervised fine-tuning to map the speaker's multimodal signals into controllable low-dimensional expression representations of a 3D morphable model. We further introduce a human-feedback reinforcement learning strategy that integrates the imitation of high-quality expression response with critic-guided optimization. Experiments on two benchmarks demonstrate that our method effectively aligns facial expressions with human preference and achieves superior performance.
Abstract（参考訳）: 自然なダイアドの相互作用を達成するには、感情的に適切で社会的に人間の好みに整合した表情を生成する必要がある。人間のフィードバックは、そのようなアライメントをガイドする魅力的なメカニズムを提供するが、このフィードバックを顔の表情生成に効果的に組み込む方法はまだ解明されていない。本稿では,人間の嗜好に合わせた表情生成手法を提案する。本手法の鍵となるのは、行動学習プロセスとしてアイデンティティ非依存の表情の生成をフレーミングすることであり、人間のフィードバックは視覚的あるいはアイデンティティのバイアスを伴わずにその妥当性を評価できる。話者の会話の仕方に動的に応答する閉じたフィードバックループを確立する。具体的には、教師付き微調整による視覚言語行動モデルを用いて、話者のマルチモーダル信号を3次元形態素モデルの制御可能な低次元表現にマッピングする。さらに、高品質な表現応答の模倣と批判誘導最適化を統合したヒューマンフィードバック強化学習戦略を導入する。 2つのベンチマーク実験により, 顔の表情と人の好みを効果的に一致させ, 優れた性能が得られることを示した。

関連論文リスト

A Unified Spoken Language Model with Injected Emotional-Attribution Thinking for Human-like Interaction [50.05919688888947]
本稿では,感情的インテリジェンスのための統一言語モデルを提案する。 IEATは、ユーザーの感情状態とその根本原因をモデルの内部推論プロセスに組み込んでおり、明示的な監督として扱われるのではなく、感情を意識した推論を内部化することができる。 HumDial(Human-like Spoken Dialogue Systems Challenge)Emotional Intelligenceベンチマークの実験は、提案手法が感情軌道モデリング、感情的推論、共感的応答生成にまたがるトップランクのパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2026-01-08T14:07:30Z)
HAPI: A Model for Learning Robot Facial Expressions from Human Preferences [4.250785086838609]
本稿では,この相違に対処するために,人間のフィードバックを活用する新しい学習 to ランクフレームワークを提案する。提案手法は,アンガー,幸福,サプライズをベースラインや専門家が設計した手法よりもはるかに現実的で社会的に共鳴する表現を生成する。
論文参考訳（メタデータ） (2025-03-21T11:04:01Z)
When Words Smile: Generating Diverse Emotional Facial Expressions from Text [77.1867389815291]
本稿では,感情動態に着目したエンドツーエンドのテキスト対表現モデルを提案する。我々のモデルは連続的な潜伏空間における表情の変動を学習し、多様な、流動的で、感情的に一貫性のある表現を生成する。
論文参考訳（メタデータ） (2024-12-03T15:39:05Z)
Towards Localized Fine-Grained Control for Facial Expression Generation [54.82883891478555]
人間、特にその顔は、豊かな表現と意図を伝える能力のために、コンテンツ生成の中心である。現在の生成モデルは、主に平らな中立表現と文字なしの笑顔を認証なしで生成する。顔生成における表情制御におけるAU(アクションユニット)の利用を提案する。
論文参考訳（メタデータ） (2024-07-25T18:29:48Z)
Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文参考訳（メタデータ） (2024-03-14T03:21:33Z)
Emotional Listener Portrait: Realistic Listener Motion Simulation in Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。 ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文参考訳（メタデータ） (2023-09-29T18:18:32Z)
Comprehensive Facial Expression Synthesis using Human-Interpretable Language [33.11402372756348]
言語に基づく表情記述から新しい表情合成モデルを提案する。本手法は,詳細な表情で顔画像の合成を行う。さらに, 顔の特徴に言語特徴を効果的に埋め込むことで, 個々の単語を制御し, 顔の動きを処理できる。
論文参考訳（メタデータ） (2020-07-16T07:28:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。