Fugu-MT 論文翻訳(概要): CogPortrait: Fine-Grained Eye-Region Control in Portrait Animation via Hierarchical Agent Planning

論文の概要: CogPortrait: Fine-Grained Eye-Region Control in Portrait Animation via Hierarchical Agent Planning

arxiv url: http://arxiv.org/abs/2605.28056v1
Date: Wed, 27 May 2026 07:02:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-28 17:38:55.831012
Title: CogPortrait: Fine-Grained Eye-Region Control in Portrait Animation via Hierarchical Agent Planning
Title（参考訳）: CogPortrait:階層的エージェント計画によるポートレートアニメーションにおける細粒アイレギュレーション制御
Authors: He Feng, Yongjia Ma, Donglin Di, Lei Fan, Tonghua Su,
Abstract要約: 高レベルのラベルからポートレートアニメーションを生成する2段階のフレームワークであるCogPortraitを提案する。最初の段階では、3つのMultimodal Large Language Models (MLLM)エージェントがハイレベルなラベルを顔のキーポイントにコンパイルする。第2段階では、DiTベースのビデオ生成バックボーンが、キーポイントに条件付けられた最終アニメーションを合成する。
参考スコア（独自算出の注目度）: 8.261259873074271
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Portrait animation methods have achieved substantial visual quality and lip synchronization, but fine-grained manipulation of the eye region still faces a trade-off between input granularity and motion accuracy. Existing methods using emotion labels or coarse text prompts are insufficient for describing subtle ocular dynamics, whereas approaches based on Action Units or driving videos provide higher fidelity at the cost of a heavier input burden. These limitations are still restrictive for beyond-emotion states (e.g., thinking) and drowsiness. In light of the above, we propose CogPortrait, a two-stage framework that generates portrait animations from high-level labels. In the first stage, three chain-of-thought Multimodal Large Language Models (MLLMs) agents compile high-level labels into facial keypoints through temporal event planning, prototype retrieval, and composition from a real-behavior library, and semantic-physiological constraint enforcement. In the second stage, a DiT-based video generation backbone synthesizes the final animation conditioned on the keypoints, reference portrait, audio, and text prompt, enhanced by a dynamic classifier-free guidance strategy with eye-region-aware reweighting and KTO-based refinement for boundary cases. We further introduce the EMH benchmark covering diverse emotions and beyond-emotion categories with two AU-level metrics for evaluating fine-grained eye-region and head-motion control. Extensive experiments on HDTF and the EMH benchmark demonstrate that CogPortrait achieves more precise eye-region control than existing methods while maintaining supe- rior visual quality and identity consistency
Abstract（参考訳）: ポートレートアニメーション法は、視覚的品質と唇の同期を実現しているが、目領域の微細な操作は、入力の粒度と動きの精度のトレードオフに直面している。感情ラベルや粗いテキストプロンプトを用いた既存の方法は、微妙な視線力学を記述するには不十分であるが、アクション・ユニットやドライブ・ビデオに基づくアプローチは、重い入力重みを犠牲にして高い忠実度を提供する。これらの制限は、超越状態(例えば思考)と眠気(drowsiness)に対して依然として制限的である。以上のことから,高レベルのラベルからポートレートアニメーションを生成する2段階のフレームワークであるCogPortraitを提案する。最初の段階では、3つのチェーン・オブ・シンクレット・マルチモーダル・大規模言語モデル(MLLM)エージェントが、時間的イベント計画、プロトタイプ検索、実際の行動ライブラリからの合成、意味論的制約の実施を通じて、ハイレベルなラベルを顔のキーポイントにコンパイルする。第2段階では、DITベースのビデオ生成バックボーンは、境界ケースに対する視線領域認識再重み付けとKTOベースの改善による動的分類器なし誘導戦略により強化されたキーポイント、参照ポートレート、オーディオ、テキストプロンプトに条件付き最終アニメーションを合成する。さらに、多彩な感情と他感情のカテゴリをカバーするEMHベンチマークを導入し、2つのAUレベルの指標を用いて、きめ細かい視線領域と頭の動き制御を評価した。 HDTFとEMHベンチマークの広範囲な実験により、CogPortraitはスープ-リヤ視品質とアイデンティティの整合性を維持しながら、既存の方法よりも正確なアイリージョン制御を実現していることが示された。

関連論文リスト

LaCoVL-FER: Landmark-Guided Contrastive Learning Network with Vision-Language Enhancement for Facial Expression Recognition [51.70817823155725]
顔表情認識のための視覚言語強化型ランドマーク誘導型コントラスト学習ネットワーク(FER)を提案する。 LaCoVL-FERは、顔のランドマークと視覚言語モデルからのセマンティックな事前情報を統合する。実験により、LaCoVL-FERは3つの代表的な実世界のFERデータセット上で最先端のメソッドより優れていることが示された。
論文参考訳（メタデータ） (2026-05-19T13:15:41Z)
Beyond Pedestrians: Caption-Guided CLIP Framework for High-Difficulty Video-based Person Re-Identification [0.0]
テキスト記述と学習可能なトークンを活用するキャプション誘導型CLIPフレームワークを提案する。我々は2つの標準データセットと2つの新しく構築された高次データセットに対するアプローチを評価する。実験により,本手法は現在の最先端手法よりも優れていることが示された。
論文参考訳（メタデータ） (2026-04-09T02:55:51Z)
MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。 MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文参考訳（メタデータ） (2026-03-03T18:59:51Z)
Weak to Strong: VLM-Based Pseudo-Labeling as a Weakly Supervised Training Strategy in Multimodal Video-based Hidden Emotion Understanding Tasks [4.888851550406879]
本稿では,映像中の「概念的感情」の自動認識に取り組むための弱視的枠組みを提案する。実験により、厳密なクラス不均衡にもかかわらず、提案手法は以前の作業で0.6以下から0.69以上に上昇することが示された。
論文参考訳（メタデータ） (2026-02-08T17:02:55Z)
Talking Head Generation via AU-Guided Landmark Prediction [48.30051606459973]
顔行動単位(AUs)を用いた微粒化表現制御による音声駆動音声ヘッド生成のための2段階フレームワークを提案する。第1段階では、変動運動生成器は、音声およびAU強度から時間的にコヒーレントなランドマークシーケンスを予測する。第2段階では、拡散に基づく合成器がこれらのランドマークと参照画像に調和したリアルなリップ同期ビデオを生成する。
論文参考訳（メタデータ） (2025-09-24T04:01:57Z)
DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文参考訳（メタデータ） (2025-03-27T08:07:45Z)
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。 I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文参考訳（メタデータ） (2025-01-06T14:49:26Z)
FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文参考訳（メタデータ） (2024-07-02T10:55:43Z)
Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。 MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文参考訳（メタデータ） (2021-10-01T16:52:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。