論文の概要: Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.19692v1
- Date: Mon, 22 Dec 2025 18:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.899638
- Title: Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models
- Title(参考訳): Interact2Ar:自己回帰拡散モデルによるフルボディヒューマン・ヒューマンインタラクション生成
- Authors: Pablo Ruiz-Ponce, Sergio Escalera, José García-Rodríguez, Jiankang Deng, Rolandos Alexandros Potamias,
- Abstract要約: テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
- 参考スコア(独自算出の注目度): 80.28579390566298
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating realistic human-human interactions is a challenging task that requires not only high-quality individual body and hand motions, but also coherent coordination among all interactants. Due to limitations in available data and increased learning complexity, previous methods tend to ignore hand motions, limiting the realism and expressivity of the interactions. Additionally, current diffusion-based approaches generate entire motion sequences simultaneously, limiting their ability to capture the reactive and adaptive nature of human interactions. To address these limitations, we introduce Interact2Ar, the first end-to-end text-conditioned autoregressive diffusion model for generating full-body, human-human interactions. Interact2Ar incorporates detailed hand kinematics through dedicated parallel branches, enabling high-fidelity full-body generation. Furthermore, we introduce an autoregressive pipeline coupled with a novel memory technique that facilitates adaptation to the inherent variability of human interactions using efficient large context windows. The adaptability of our model enables a series of downstream applications, including temporal motion composition, real-time adaptation to disturbances, and extension beyond dyadic to multi-person scenarios. To validate the generated motions, we introduce a set of robust evaluators and extended metrics designed specifically for assessing full-body interactions. Through quantitative and qualitative experiments, we demonstrate the state-of-the-art performance of Interact2Ar.
- Abstract(参考訳): 現実的な人間と人間の相互作用を生成することは、高品質な身体と手の動きだけでなく、すべての対話者間のコヒーレントな協調を必要とする難しいタスクである。
利用可能なデータの制限と学習の複雑さの増大により、従来の手法は手の動きを無視し、相互作用の現実性と表現性を制限する傾向にある。
さらに、現在の拡散に基づくアプローチは、人間の相互作用の反応性と適応性を捉える能力を制限し、同時に全運動列を生成する。
これらの制約に対処するため、本論文では、人体と人体の相互作用を生成するための、最初のエンドツーエンドのテキスト条件付き自己回帰拡散モデルであるInteract2Arを紹介する。
Interact2Arは、専用のパラレルブランチを通じて詳細なハンドキネマティクスを組み込んで、高忠実度フルボディ生成を可能にする。
さらに,より効率的な大規模コンテキストウィンドウを用いた人的相互作用の固有変数への適応を容易にする,新しいメモリ技術を組み合わせた自己回帰パイプラインを提案する。
このモデルの適応性は、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
生成した動作を検証するために,フルボディインタラクションの評価に特化して設計された,ロバストな評価器と拡張メトリクスを導入する。
定量的および定性的な実験を通じて、Interact2Arの最先端性能を実証する。
関連論文リスト
- HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation [55.73037290387896]
HINTは,階層的インタラクティクスモデリングを応用した多関節モーション生成のための最初の自動回帰フレームワークである。
第一に、HINTは正準化潜在空間内でのゆがみのある動きの表現を活用し、局所的な動きのセマンティクスを対人インタラクションから切り離す。
第二に、HINTは効率的なオンライン生成のためのスライドウインドウ戦略を採用し、局所的なウィンドウ内およびグローバルなクロスウインドウ条件を集約し、過去の人類の歴史、個人間の依存関係を捉え、テキストガイダンスと整合する。
論文 参考訳(メタデータ) (2026-01-28T08:47:23Z) - Fine-grained text-driven dual-human motion generation via dynamic hierarchical interaction [31.055662466004254]
本研究では,動的階層的相互作用をモデル化するための微細なデュアルヒューマンモーション生成法,すなわちファインダールを提案する。
最初の段階である自己学習段階(Self-Learning Stage)は、二重人間全体のテキストを個々のテキストに分割する。
第2段階である適応調整段階(Adaptive Adjustment Stage)は、相互作用距離予測器によって相互作用距離を予測する。
最後のステージであるTeacher-Guided Refinement Stageは、全体レベルでの動作機能を洗練するためのガイダンスとして、全体的なテキスト機能を利用する。
論文 参考訳(メタデータ) (2025-10-09T14:18:53Z) - Text2Interact: High-Fidelity and Diverse Text-to-Two-Person Interaction Generation [39.67266918328847]
本研究では,現実的なテキスト・ヒューマンインタラクションを生成するためのText2フレームワークを提案する。
本稿では,対話記述と強いシングルパーソン動作を協調する合成合成パイプラインであるInterComposeを提案する。
また,トークンレベルの手がかりを保存した単語レベルの条件付きテキスト対話モデルであるInterActorを提案する。
論文 参考訳(メタデータ) (2025-10-07T22:41:23Z) - MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - Two-in-One: Unified Multi-Person Interactive Motion Generation by Latent Diffusion Transformer [24.166147954731652]
多人数対話型モーション生成はコンピュータ・キャラクター・アニメーションにおける重要な領域であるが、未探索領域である。
現在の研究では、個々の動作に別々のモジュールブランチを使用することが多いため、インタラクション情報が失われる。
本稿では,複数の人物の動きとその相互作用を1つの潜在空間内でモデル化する,新しい統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-12-21T15:35:50Z) - in2IN: Leveraging individual Information to Generate Human INteractions [29.495166514135295]
In2IN(in2IN)は、人間と人間の動作生成を個別に記述した新しい拡散モデルである。
In2INで生成された動きと、HumanML3Dで事前訓練された1人の動きによって生成された動きとを組み合わせたモデル合成手法であるDualMDMを提案する。
論文 参考訳(メタデータ) (2024-04-15T17:59:04Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - InterGen: Diffusion-based Multi-human Motion Generation under Complex Interactions [49.097973114627344]
動作拡散プロセスに人間と人間の相互作用を組み込んだ効果的な拡散ベースアプローチであるInterGenを提案する。
我々はまず、InterHumanという名前のマルチモーダルデータセットをコントリビュートする。これは、様々な2人インタラクションのための約107Mフレームで構成され、正確な骨格運動と23,337の自然言語記述を持つ。
本稿では,世界規模での2人のパフォーマーのグローバルな関係を明示的に定式化した対話拡散モデルにおける動作入力の表現を提案する。
論文 参考訳(メタデータ) (2023-04-12T08:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。