論文の概要: Latent Behavior Diffusion for Sequential Reaction Generation in Dyadic Setting
- arxiv url: http://arxiv.org/abs/2505.07901v1
- Date: Mon, 12 May 2025 09:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.273176
- Title: Latent Behavior Diffusion for Sequential Reaction Generation in Dyadic Setting
- Title(参考訳): 動的設定における逐次反応生成のための潜時挙動拡散
- Authors: Minh-Duc Nguyen, Hyung-Jeong Yang, Soo-Hyung Kim, Ji-Eun Shin, Seung-Won Kim,
- Abstract要約: ダイアド反応生成タスクは、会話相手の行動と密接に一致した反応反応を伴う。
本稿では,文脈認識型オートエンコーダと拡散型条件生成器を組み合わせた新しい手法である潜時行動拡散モデルを提案する。
実験により, 従来の手法と比較して, 動的反応合成タスクにおいて, 優れた性能を実現するためのアプローチの有効性を実証した。
- 参考スコア(独自算出の注目度): 11.016004057765185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The dyadic reaction generation task involves synthesizing responsive facial reactions that align closely with the behaviors of a conversational partner, enhancing the naturalness and effectiveness of human-like interaction simulations. This paper introduces a novel approach, the Latent Behavior Diffusion Model, comprising a context-aware autoencoder and a diffusion-based conditional generator that addresses the challenge of generating diverse and contextually relevant facial reactions from input speaker behaviors. The autoencoder compresses high-dimensional input features, capturing dynamic patterns in listener reactions while condensing complex input data into a concise latent representation, facilitating more expressive and contextually appropriate reaction synthesis. The diffusion-based conditional generator operates on the latent space generated by the autoencoder to predict realistic facial reactions in a non-autoregressive manner. This approach allows for generating diverse facial reactions that reflect subtle variations in conversational cues and emotional states. Experimental results demonstrate the effectiveness of our approach in achieving superior performance in dyadic reaction synthesis tasks compared to existing methods.
- Abstract(参考訳): ダイアド反応生成タスクは、会話相手の行動と密接に一致した反応反応を合成し、人間のような相互作用シミュレーションの自然性と有効性を高める。
本稿では,文脈認識型オートエンコーダと拡散型条件生成器を組み合わせた新しいアプローチである潜時行動拡散モデルを提案する。
オートエンコーダは高次元の入力特徴を圧縮し、複雑な入力データを簡潔な潜在表現に凝縮しながらリスナ反応の動的パターンをキャプチャし、より表現的かつ文脈的に適切な反応合成を容易にする。
拡散ベースの条件生成装置は、オートエンコーダによって生成された潜伏空間上で動作し、非自己回帰的に現実的な顔反応を予測する。
このアプローチは、会話の手がかりや感情状態の微妙な変化を反映した多様な顔反応を生成することができる。
実験により, 従来の手法と比較して, 動的反応合成タスクにおいて, 優れた性能を実現するためのアプローチの有効性を実証した。
関連論文リスト
- ARFlow: Human Action-Reaction Flow Matching with Physical Guidance [34.33083853308399]
Action-Reaction Flow Matchingは、直接アクションから反応へのマッピングを確立する新しいフレームワークである。
提案手法では,速度場ではなく人体の動きを直接出力するx1-prediction法と,サンプリング中の身体の侵入を効果的に防止するトレーニング不要で勾配に基づく物理的誘導機構を導入する。
論文 参考訳(メタデータ) (2025-03-21T09:41:24Z) - Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation [82.73098356401725]
本稿では,過去観測された動きに基づいて次のキャラクターのポーズを生成するためのオンライン反応ポリシーであるReady-to-Reactを提案する。
各キャラクターは独自の反応ポリシーを「脳」として持っており、実際の人間のようにストリーミングで対話することができる。
われわれのアプローチはスパース信号で制御でき、VRや他のオンラインインタラクティブ環境にも適している。
論文 参考訳(メタデータ) (2025-02-27T18:40:30Z) - Learning Chemical Reaction Representation with Reactant-Product Alignment [50.28123475356234]
RAlignは、様々な有機反応関連タスクのための新しい化学反応表現学習モデルである。
反応物質と生成物との原子対応を統合することにより、反応中に起こる分子変換を識別する。
モデルが重要な機能群に集中できるように,反応中心認識型アテンション機構を導入する。
論文 参考訳(メタデータ) (2024-11-26T17:41:44Z) - ReGenNet: Towards Human Action-Reaction Synthesis [87.57721371471536]
我々は、人間と人間の相互作用の非対称、動的、同期、および詳細な性質を分析する。
本研究では,人間の行動に条件付けされた人間の反応を生成するための,最初のマルチセットヒト行動反応ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-03-18T15:33:06Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - Towards Spontaneous Style Modeling with Semi-supervised Pre-training for
Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。
半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文 参考訳(メタデータ) (2023-08-31T09:50:33Z) - Inferring Temporal Compositions of Actions Using Probabilistic Automata [61.09176771931052]
本稿では,動作の時間的構成を意味正規表現として表現し,確率的オートマトンを用いた推論フレームワークを提案する。
我々のアプローチは、長い範囲の複雑なアクティビティを、順序のないアトミックアクションのセットとして予測するか、自然言語文を使ってビデオを取得するという既存の研究とは異なる。
論文 参考訳(メタデータ) (2020-04-28T00:15:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。