論文の概要: ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data
- arxiv url: http://arxiv.org/abs/2604.01082v1
- Date: Wed, 01 Apr 2026 16:12:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.081601
- Title: ReMoGen: Real-time Human Interaction-to-Reaction Generation via Modular Learning from Diverse Data
- Title(参考訳): ReMoGen: 各種データからのモジュール学習によるリアルタイムヒューマンインタラクション・反応生成
- Authors: Yaoqin Ye, Yiteng Xu, Qin Sun, Xinge Zhu, Yujing Sun, Yuexin Ma,
- Abstract要約: ReMoGenはリアルタイムインタラクションと反応生成のためのモジュラー学習フレームワークである。
これは、他の動作、シーン幾何学、オプションのハイレベルなセマンティック入力を含む動的マルチソースキューから、エゴの将来の動きを生成する。
ReMoGenは、様々な相互作用シナリオを効果的に一般化しながら、高品質でコヒーレントで応答性のある反応を生成する。
- 参考スコア(独自算出の注目度): 38.85809416362408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human behaviors in real-world environments are inherently interactive, with an individual's motion shaped by surrounding agents and the scene. Such capabilities are essential for applications in virtual avatars, interactive animation, and human-robot collaboration. We target real-time human interaction-to-reaction generation, which generates the ego's future motion from dynamic multi-source cues, including others' actions, scene geometry, and optional high-level semantic inputs. This task is fundamentally challenging due to (i) limited and fragmented interaction data distributed across heterogeneous single-person, human-human, and human-scene domains, and (ii) the need to produce low-latency yet high-fidelity motion responses during continuous online interaction. To address these challenges, we propose ReMoGen (Reaction Motion Generation), a modular learning framework for real-time interaction-to-reaction generation. ReMoGen leverages a universal motion prior learned from large-scale single-person motion datasets and adapts it to target interaction domains through independently trained Meta-Interaction modules, enabling robust generalization under data-scarce and heterogeneous supervision. To support responsive online interaction, ReMoGen performs segment-level generation together with a lightweight Frame-wise Segment Refinement module that incorporates newly observed cues at the frame level, improving both responsiveness and temporal coherence without expensive full-sequence inference. Extensive experiments across human-human, human-scene, and mixed-modality interaction settings show that ReMoGen produces high-quality, coherent, and responsive reactions, while generalizing effectively across diverse interaction scenarios.
- Abstract(参考訳): 現実世界の環境における人間の行動は本質的に対話的であり、周囲のエージェントとシーンによって個人の動きが形作られる。
このような機能は、仮想アバター、インタラクティブアニメーション、人間とロボットのコラボレーションにおけるアプリケーションに不可欠である。
我々は,動的なマルチソースキューから,他者の行動,シーン形状,オプションのハイレベルな意味入力を含む,エゴの将来の動きを生成するリアルタイムなヒューマンインタラクション・対反応生成を目標とする。
この仕事は基本的に困難である
一 異質の単元・人・人・人・景領域に散在する限定的・断片的な相互作用データ
(II) 連続的なオンラインインタラクションにおいて低遅延かつ高忠実な動作応答を発生させる必要がある。
これらの課題に対処するために,リアルタイム対話・反応生成のためのモジュール型学習フレームワークであるReMoGen(Reaction Motion Generation)を提案する。
ReMoGenは、大規模なシングルパーソンモーションデータセットから事前に学習された普遍的な動きを活用し、独立に訓練されたMeta-Interactionモジュールを通じてターゲットのインタラクションドメインに適応し、データスキャンと異種監視の下で堅牢な一般化を可能にする。
レスポンシブオンラインインタラクションをサポートするために、ReMoGenは、フレームレベルで新たに観測されたキューを組み込んだ軽量なFrame-wise Segment Refinementモジュールとともにセグメントレベルの生成を実行する。
ヒューマン、ヒューマン・シーン、ミックス・モダリティ・インタラクション・セッティングの広範な実験は、ReMoGenが高品質で一貫性があり、応答性のある反応を生み出し、多様な相互作用シナリオを効果的に一般化していることを示している。
関連論文リスト
- HINT: Hierarchical Interaction Modeling for Autoregressive Multi-Human Motion Generation [55.73037290387896]
HINTは,階層的インタラクティクスモデリングを応用した多関節モーション生成のための最初の自動回帰フレームワークである。
第一に、HINTは正準化潜在空間内でのゆがみのある動きの表現を活用し、局所的な動きのセマンティクスを対人インタラクションから切り離す。
第二に、HINTは効率的なオンライン生成のためのスライドウインドウ戦略を採用し、局所的なウィンドウ内およびグローバルなクロスウインドウ条件を集約し、過去の人類の歴史、個人間の依存関係を捉え、テキストガイダンスと整合する。
論文 参考訳(メタデータ) (2026-01-28T08:47:23Z) - Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - Diffusion Forcing for Multi-Agent Interaction Sequence Modeling [52.769202433667125]
MAGNetはマルチエージェントモーション生成のための統合された自己回帰拡散フレームワークである。
フレキシブルな条件付けとサンプリングを通じて、幅広いインタラクションタスクをサポートする。
緊密に同期された活動と、ゆるやかに構造化された社会的相互作用の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-12-19T18:59:02Z) - Fine-grained text-driven dual-human motion generation via dynamic hierarchical interaction [31.055662466004254]
本研究では,動的階層的相互作用をモデル化するための微細なデュアルヒューマンモーション生成法,すなわちファインダールを提案する。
最初の段階である自己学習段階(Self-Learning Stage)は、二重人間全体のテキストを個々のテキストに分割する。
第2段階である適応調整段階(Adaptive Adjustment Stage)は、相互作用距離予測器によって相互作用距離を予測する。
最後のステージであるTeacher-Guided Refinement Stageは、全体レベルでの動作機能を洗練するためのガイダンスとして、全体的なテキスト機能を利用する。
論文 参考訳(メタデータ) (2025-10-09T14:18:53Z) - MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - InterControl: Zero-shot Human Interaction Generation by Controlling Every Joint [67.6297384588837]
関節間の所望距離を維持するために,新しい制御可能な運動生成手法であるInterControlを導入する。
そこで本研究では,既成の大規模言語モデルを用いて,ヒューマンインタラクションのための結合ペア間の距離を生成できることを実証した。
論文 参考訳(メタデータ) (2023-11-27T14:32:33Z) - SoMoFormer: Social-Aware Motion Transformer for Multi-Person Motion
Prediction [10.496276090281825]
本稿では,ソーシャル・アウェア・モーション・トランスフォーマー(SoMoFormer)を提案する。
SoMoFormerは、変位軌道空間のサブシーケンスから運動特徴を抽出し、各個人に対する局所的およびグローバルなポーズダイナミクスを学習する。
さらに,SoMoFormerに新たなソーシャル・アウェア・アテンション・アテンション・メカニズムを考案し,動的表現をさらに最適化し,相互依存を同時に捉える。
論文 参考訳(メタデータ) (2022-08-19T08:57:34Z) - Interaction Transformer for Human Reaction Generation [61.22481606720487]
本稿では,時間的,空間的両方の注意を持つトランスフォーマーネットワークからなる対話型トランスフォーマー(InterFormer)を提案する。
我々の手法は一般的であり、より複雑で長期的な相互作用を生成するのに利用できる。
論文 参考訳(メタデータ) (2022-07-04T19:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。