論文の概要: GDPO-Listener: Expressive Interactive Head Generation via Auto-Regressive Flow Matching and Group reward-Decoupled Policy Optimization
- arxiv url: http://arxiv.org/abs/2603.25020v1
- Date: Thu, 26 Mar 2026 04:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.09849
- Title: GDPO-Listener: Expressive Interactive Head Generation via Auto-Regressive Flow Matching and Group reward-Decoupled Policy Optimization
- Title(参考訳): GDPO-Listener:自己回帰フローマッチングとグループ報酬分離ポリシー最適化による表現型対話型ヘッドジェネレーション
- Authors: Zhangyu Jin, Maksim Siniukov, Deuksin Kwon, Ashutosh Chaubey, Mohammad Soleymani,
- Abstract要約: GDPO-Listenerは高度に表現力のある発話・聴取動作生成を実現する新しいフレームワークである。
本稿では,安定した教師付き学習を可能にする自動回帰フローマッチングアーキテクチャを提案する。
異なるFLAMEパラメータ群間で報酬正規化を分離することにより、GDPOは高分散表現世代を明示的にインセンティブ化する。
- 参考スコア(独自算出の注目度): 5.5806589487812746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating realistic 3D head motion for dyadic interactions is a significant challenge in virtual human synthesis. While recent methods achieve impressive results with speaking heads, they frequently suffer from the `Regression-to-the-Mean' problem in listener motions, collapsing into static faces, and lack the parameter space for complex nonverbal motions. In this paper, we propose GDPO-Listener, a novel framework that achieves highly expressive speaking and listening motion generation. First, we introduce an Auto-Regressive Flow Matching architecture enabling stable supervised learning. Second, to overcome kinematic stillness, we apply the Group reward-Decoupled Policy Optimization (GDPO). By isolating reward normalization across distinct FLAME parameter groups, GDPO explicitly incentivizes high variance expressive generations. Finally, we enable explicit semantic text control for customizable responses. Extensive evaluations across the Seamless Interaction and DualTalk datasets demonstrate superior performance compared to existing baselines on long-term kinematic variance, visual expressivity and semantic controllability.
- Abstract(参考訳): 動的相互作用のためのリアルな3次元頭部運動を生成することは、仮想人間の合成において重要な課題である。
近年の手法では音声の頭で印象的な結果が得られるが、リスナーの動きの「Regression-to-the-Mean」問題に悩まされ、静的な顔に崩壊し、複雑な非言語的な動きのパラメータ空間が欠如している。
本稿では,高度に表現力のある音声・聴取動作生成を実現する新しいフレームワークであるGDPO-Listenerを提案する。
まず,安定した教師付き学習を可能にする自動回帰フローマッチングアーキテクチャを提案する。
第二に、キネマティックな静性を克服するために、グループ報酬分離政策最適化(GDPO)を適用する。
異なるFLAMEパラメータ群間で報酬正規化を分離することにより、GDPOは高分散表現世代を明示的にインセンティブ化する。
最後に、カスタマイズ可能な応答に対して、明示的なセマンティックテキスト制御を可能にする。
Seamless InteractionとDualTalkデータセットの大規模な評価は、長期の運動的分散、視覚的表現性、意味的な制御性に関する既存のベースラインと比較して、優れたパフォーマンスを示している。
関連論文リスト
- InterDyad: Interactive Dyadic Speech-to-Video Generation by Querying Intermediate Visual Guidance [20.740979380270126]
対話型ダイアディック力学の合成フレームワークであるInterDyadを提案する。
我々はまず、参照ビデオから抽出されたアイデンティティ非依存の動作先に基づいて、ビデオの再現を実現するInteractiveを設計する。
MLLM(Multimodal Large Language Model)を利用して,音声から言語意図を抽出し,反応の正確なタイミングと適切性を決定する。
包括的実験により、InterDyadは、自然と文脈的に基底付けられた2人のインタラクションを生成において、最先端の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2026-03-24T12:27:52Z) - MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation [55.73037290387896]
HINTは,階層的インタラクティクスモデリングを応用した多関節モーション生成のための最初の自動回帰フレームワークである。
第一に、HINTは正準化潜在空間内でのゆがみのある動きの表現を活用し、局所的な動きのセマンティクスを対人インタラクションから切り離す。
第二に、HINTは効率的なオンライン生成のためのスライドウインドウ戦略を採用し、局所的なウィンドウ内およびグローバルなクロスウインドウ条件を集約し、過去の人類の歴史、個人間の依存関係を捉え、テキストガイダンスと整合する。
論文 参考訳(メタデータ) (2026-01-28T08:47:23Z) - Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - ARIG: Autoregressive Interactive Head Generation for Real-time Conversations [15.886402427095515]
対面コミュニケーションは、共通の人間の活動として、インタラクティブなヘッドジェネレーションの研究を動機付けている。
従来のクリップワイズ生成パラダイムや明示的なリスナー/スピーカジェネレータスイッチング手法は,将来的な信号取得に限界がある。
本稿では,AR(autoregressive,自己回帰的,自己回帰的,自己回帰的,自己回帰的)に基づくフレームワークARIGを提案する。
論文 参考訳(メタデータ) (2025-07-01T06:38:14Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Auto-Regressive Diffusion for Generating 3D Human-Object Interactions [5.587507490937267]
HOI生成の鍵となる課題は、長いシーケンスでの相互作用の一貫性を維持することである。
本稿では,次の連続トークンを予測する自己回帰拡散モデル(ARDHOI)を提案する。
このモデルはOMOMOとBEHAVEのデータセットで評価されている。
論文 参考訳(メタデータ) (2025-03-21T02:25:59Z) - Lifting Scheme-Based Implicit Disentanglement of Emotion-Related Facial Dynamics in the Wild [3.3905929183808796]
In-the-the-wild dynamic expression Recognition (DFER)は、感情に関連する表情を認識する上で重要な課題に遭遇する。
IFDD(Implicit Facial Dynamics Disentanglement framework)を提案する。
IFDDは感情に無関係な世界的文脈から感情に関連する動的情報を暗黙的に切り離す。
論文 参考訳(メタデータ) (2024-12-17T18:45:53Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。