論文の概要: EgoReAct: Egocentric Video-Driven 3D Human Reaction Generation
- arxiv url: http://arxiv.org/abs/2512.22808v1
- Date: Sun, 28 Dec 2025 06:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.236807
- Title: EgoReAct: Egocentric Video-Driven 3D Human Reaction Generation
- Title(参考訳): EgoReAct:エゴセントリックなビデオ駆動型3D人間反応生成
- Authors: Libo Zhang, Zekun Li, Tianyu Li, Zeyu Cao, Rui Xu, Xiaoxiao Long, Wenjia Wang, Jingbo Wang, Yuan Liu, Wenping Wang, Daquan Zhou, Taku Komura, Zhiyang Dou,
- Abstract要約: EgoReActは,エゴセントリックな映像ストリームからリアルタイムに3Dアライメントされた人間の反応運動を生成する最初のフレームワークである。
EgoReAct は,従来の手法に比べて極めて高いリアリズム,空間整合性,生成効率を実現している。
- 参考スコア(独自算出の注目度): 84.37917777533963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans exhibit adaptive, context-sensitive responses to egocentric visual input. However, faithfully modeling such reactions from egocentric video remains challenging due to the dual requirements of strictly causal generation and precise 3D spatial alignment. To tackle this problem, we first construct the Human Reaction Dataset (HRD) to address data scarcity and misalignment by building a spatially aligned egocentric video-reaction dataset, as existing datasets (e.g., ViMo) suffer from significant spatial inconsistency between the egocentric video and reaction motion, e.g., dynamically moving motions are always paired with fixed-camera videos. Leveraging HRD, we present EgoReAct, the first autoregressive framework that generates 3D-aligned human reaction motions from egocentric video streams in real-time. We first compress the reaction motion into a compact yet expressive latent space via a Vector Quantised-Variational AutoEncoder and then train a Generative Pre-trained Transformer for reaction generation from the visual input. EgoReAct incorporates 3D dynamic features, i.e., metric depth, and head dynamics during the generation, which effectively enhance spatial grounding. Extensive experiments demonstrate that EgoReAct achieves remarkably higher realism, spatial consistency, and generation efficiency compared with prior methods, while maintaining strict causality during generation. We will release code, models, and data upon acceptance.
- Abstract(参考訳): 人間は自我中心の視覚入力に対して適応的で文脈に敏感な反応を示す。
しかし、厳密な因果生成と正確な3次元空間アライメントの二重要求のため、自我中心ビデオからのこのような反応を忠実にモデル化することは依然として困難である。
この問題に対処するために、我々はまず、既存のデータセット(例えば、ViMo)がエゴセントリックなビデオと反応運動の空間的不整合に悩まされているため、空間的に整合したエゴセントリックなビデオ・リアクション・データセットを構築することで、データの不足と不整合に対処するヒューマン・リアクション・データセット(HRD)を構築した。
HRDを活用することで、EgoReActは、エゴセントリックなビデオストリームから3Dアライメントされた人間の反応運動をリアルタイムで生成する最初の自動回帰フレームワークである。
まず、ベクトル量子化可変オートエンコーダを用いて、反応運動をコンパクトで表現力のある潜在空間に圧縮し、次に視覚入力から反応生成のための生成事前学習変換器を訓練する。
EgoReActは3Dのダイナミックな特徴、すなわちメートル法深度と生成時の頭部ダイナミクスを取り入れ、空間的接地を効果的に強化する。
大規模な実験により、EgoReActは、生成中の厳密な因果性を維持しながら、従来の方法よりもはるかに高いリアリズム、空間整合性、生成効率を達成することが示された。
受け入れ次第、コード、モデル、データをリリースします。
関連論文リスト
- UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation [26.03507721111338]
本稿では、シーン認識動作合成に一対一のイメージを利用する2つの新しいタスクである、エゴセントリックモーション生成とエゴセントリックモーション予測を紹介する。
我々は,エゴセントリックデバイスに適した新しい頭部中心運動表現を備えた統一された条件付き運動拡散モデルUniEgoMotionを提案する。
UniEgoMotionは、自我中心の運動再構成において最先端のパフォーマンスを達成し、単一の自我中心の画像から動きを初めて生成する。
論文 参考訳(メタデータ) (2025-08-02T00:41:20Z) - PlayerOne: Egocentric World Simulator [73.88786358213694]
PlayerOneは、最初のエゴセントリックなリアルワールドシミュレータである。
それは、エゴセントリックなビデオを生成し、エゴセントリックなカメラで捉えたユーザーの実際のシーンの人間の動きと厳密に一致している。
論文 参考訳(メタデータ) (2025-06-11T17:59:53Z) - EgoGaussian: Dynamic Scene Understanding from Egocentric Video with 3D Gaussian Splatting [95.44545809256473]
エゴガウスアン(EgoGaussian)は、3Dシーンを同時に再構築し、RGBエゴセントリックな入力のみから3Dオブジェクトの動きを動的に追跡する手法である。
動的オブジェクトと背景再構築の品質の両面で,最先端技術と比較して大きな改善が見られた。
論文 参考訳(メタデータ) (2024-06-28T10:39:36Z) - EgoGen: An Egocentric Synthetic Data Generator [53.32942235801499]
EgoGenは新しい合成データジェネレータで、エゴセントリックな知覚タスクのための正確でリッチな地上訓練データを生成することができる。
EgoGenの中心となるのは、仮想人間の自我中心の視覚入力を直接利用して3D環境を感知する、新しい人間のモーション合成モデルである。
我々は、ヘッドマウントカメラのマッピングとローカライゼーション、エゴセントリックカメラトラッキング、エゴセントリックビューからのヒューマンメッシュリカバリの3つのタスクで、EgoGenの有効性を実証する。
論文 参考訳(メタデータ) (2024-01-16T18:55:22Z) - Ego-Body Pose Estimation via Ego-Head Pose Estimation [22.08240141115053]
エゴセントリックなビデオシーケンスから3次元の人間の動きを推定することは、人間の行動理解において重要な役割を担い、VR/ARに様々な応用がある。
Ego-Head Pose Estimation (EgoEgo) と呼ばれる新しい手法を提案する。
この頭と体のポーズのゆがみは、ペア化されたエゴセントリックなビデオと3D人間の動きでデータセットをトレーニングする必要をなくす。
論文 参考訳(メタデータ) (2022-12-09T02:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。