論文の概要: Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation
- arxiv url: http://arxiv.org/abs/2502.20370v1
- Date: Thu, 27 Feb 2025 18:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:57:11.932659
- Title: Ready-to-React: Online Reaction Policy for Two-Character Interaction Generation
- Title(参考訳): Ready-to-React: 双方向インタラクション生成のためのオンライン反応ポリシー
- Authors: Zhi Cen, Huaijin Pi, Sida Peng, Qing Shuai, Yujun Shen, Hujun Bao, Xiaowei Zhou, Ruizhen Hu,
- Abstract要約: 本稿では,過去観測された動きに基づいて次のキャラクターのポーズを生成するためのオンライン反応ポリシーであるReady-to-Reactを提案する。
各キャラクターは独自の反応ポリシーを「脳」として持っており、実際の人間のようにストリーミングで対話することができる。
われわれのアプローチはスパース信号で制御でき、VRや他のオンラインインタラクティブ環境にも適している。
- 参考スコア(独自算出の注目度): 82.73098356401725
- License:
- Abstract: This paper addresses the task of generating two-character online interactions. Previously, two main settings existed for two-character interaction generation: (1) generating one's motions based on the counterpart's complete motion sequence, and (2) jointly generating two-character motions based on specific conditions. We argue that these settings fail to model the process of real-life two-character interactions, where humans will react to their counterparts in real time and act as independent individuals. In contrast, we propose an online reaction policy, called Ready-to-React, to generate the next character pose based on past observed motions. Each character has its own reaction policy as its "brain", enabling them to interact like real humans in a streaming manner. Our policy is implemented by incorporating a diffusion head into an auto-regressive model, which can dynamically respond to the counterpart's motions while effectively mitigating the error accumulation throughout the generation process. We conduct comprehensive experiments using the challenging boxing task. Experimental results demonstrate that our method outperforms existing baselines and can generate extended motion sequences. Additionally, we show that our approach can be controlled by sparse signals, making it well-suited for VR and other online interactive environments.
- Abstract(参考訳): 本稿では,2文字のオンラインインタラクションを生成するタスクについて述べる。
従来,2文字のインタラクション生成には,(1)相手の完全な動作シーケンスに基づいて1文字の動作を生成すること,(2)特定の条件に基づいて2文字の動作を生成すること,の2つの主要な設定があった。
これらの設定は、人間がリアルタイムで相手に反応し、独立した個人として振る舞う、現実の2文字インタラクションのプロセスをモデル化できない、と我々は主張する。
対照的に、過去に観察された動きに基づいて次のキャラクターポーズを生成するために、Ready-to-Reactと呼ばれるオンライン反応ポリシーを提案する。
各キャラクターは独自の反応ポリシーを「脳」として持っており、実際の人間のようにストリーミングで対話することができる。
本ポリシーは,拡散ヘッドを自己回帰モデルに組み込むことで実現され,生成過程を通じてエラーの蓄積を効果的に軽減しつつ,相手の動きに動的に応答することができる。
我々は,挑戦的ボクシングタスクを用いて包括的実験を行う。
実験の結果,提案手法は既存のベースラインよりも優れ,拡張された動き列を生成することができることがわかった。
さらに、我々のアプローチはスパース信号で制御できることを示し、VRや他のオンラインインタラクティブ環境に適していることを示す。
関連論文リスト
- Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction [81.34648970317383]
本稿では,知覚,決定,反応を両立させるシステムであるDispiderを紹介する。
実験により、Dispiderは従来のビデオQAタスクにおいて高いパフォーマンスを維持しているだけでなく、ストリーミングシナリオ応答における従来のオンラインモデルを大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-06T18:55:10Z) - InterDyn: Controllable Interactive Dynamics with Video Diffusion Models [50.38647583839384]
我々は、初期フレームと駆動対象またはアクターの動作を符号化する制御信号が与えられたインタラクティブな動画像を生成するフレームワークであるInterDynを提案する。
私たちの重要な洞察は、大規模ビデオデータからインタラクティブなダイナミクスを学習することで、大きなビデオファンデーションモデルがニューラルと暗黙の物理シミュレータの両方として機能できるということです。
論文 参考訳(メタデータ) (2024-12-16T13:57:02Z) - It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。
我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文 参考訳(メタデータ) (2024-12-03T12:31:44Z) - ReMoS: 3D Motion-Conditioned Reaction Synthesis for Two-Person Interactions [66.87211993793807]
本稿では,2人のインタラクションシナリオにおいて,人の全身運動を合成する拡散モデルReMoSを提案する。
ペアダンス,忍術,キックボクシング,アクロバティックといった2人のシナリオでReMoSを実証する。
また,全身動作と指の動きを含む2人のインタラクションに対してReMoCapデータセットを寄贈した。
論文 参考訳(メタデータ) (2023-11-28T18:59:52Z) - MAAIP: Multi-Agent Adversarial Interaction Priors for imitation from
fighting demonstrations for physics-based characters [5.303375034962503]
提案手法は, マルチエージェント・ジェネレーティブ・ジェネレーティブ・シミュレーション・ラーニングに基づく新しいアプローチである。
我々のシステムは、各キャラクターが各アクターに関連する対話的スキルを模倣できるように、制御ポリシーを訓練する。
このアプローチはボクシングとフルボディの格闘技の2つの異なるスタイルでテストされ、異なるスタイルを模倣する手法の能力を実証している。
論文 参考訳(メタデータ) (2023-11-04T20:40:39Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - MRecGen: Multimodal Appropriate Reaction Generator [31.60823534748163]
本稿では,最初のマルチモーダル・マルチモーダル(言語的・非言語的)なヒト反応生成フレームワークを提案する。
これは、適切な仮想エージェント/ロボットの振る舞いを生成することによって、様々な人間とコンピュータの相互作用シナリオに適用することができる。
論文 参考訳(メタデータ) (2023-07-05T19:07:00Z) - Interaction Transformer for Human Reaction Generation [61.22481606720487]
本稿では,時間的,空間的両方の注意を持つトランスフォーマーネットワークからなる対話型トランスフォーマー(InterFormer)を提案する。
我々の手法は一般的であり、より複雑で長期的な相互作用を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-07-04T19:30:41Z) - A GAN-Like Approach for Physics-Based Imitation Learning and Interactive
Character Control [2.2082422928825136]
物理的にシミュレートされた文字の対話的制御のためのシンプルで直感的なアプローチを提案する。
本研究は,GAN(Generative Adversarial Network)と強化学習に基づく。
我々は,本手法の適用性を,模倣と対話的な制御タスクの範囲で強調する。
論文 参考訳(メタデータ) (2021-05-21T00:03:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。