Fugu-MT 論文翻訳(概要): End-to-End Spatial-Temporal Transformer for Real-time 4D HOI Reconstruction

論文の概要: End-to-End Spatial-Temporal Transformer for Real-time 4D HOI Reconstruction

arxiv url: http://arxiv.org/abs/2603.14435v1
Date: Sun, 15 Mar 2026 15:21:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.808116
Title: End-to-End Spatial-Temporal Transformer for Real-time 4D HOI Reconstruction
Title（参考訳）: リアルタイム4次元HOI再構成のためのエンド・ツー・エンド空間変換器
Authors: Haoyu Zhang, Wei Zhai, Yuhang Yang, Yang Cao, Zheng-Jun Zha,
Abstract要約: THOは、ビデオと3Dテンプレートから、人間の動きと調整された物体の動きを前方に予測する、エンドツーエンドの空間-時間変換器である。実験により、THOは1つの4090 GPU上で31.5 FPSの推論速度で動作し、以前の最適化ベースの手法よりも600倍のスピードアップを達成した。
参考スコア（独自算出の注目度）: 74.31251139839047
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Monocular 4D human-object interaction (HOI) reconstruction - recovering a moving human and a manipulated object from a single RGB video - remains challenging due to depth ambiguity and frequent occlusions. Existing methods often rely on multi-stage pipelines or iterative optimization, leading to high inference latency, failing to meet real-time requirements, and susceptibility to error accumulation. To address these limitations, we propose THO, an end-to-end Spatial-Temporal Transformer that predicts human motion and coordinated object motion in a forward fashion from the given video and 3D template. THO achieves this by leveraging spatial-temporal HOI tuple priors. Spatial priors exploit contact-region proximity to infer occluded object features from human cues, while temporal priors capture cross-frame kinematic correlations to refine object representations and enforce physical coherence. Extensive experiments demonstrate that THO operates at an inference speed of 31.5 FPS on a single RTX 4090 GPU, achieving a >600x speedup over prior optimization-based methods while simultaneously improving reconstruction accuracy and temporal consistency. The project page is available at: https://nianheng.github.io/THO-project/
Abstract（参考訳）: 1つのRGBビデオから動く人間と操作された物体を回収する、単眼の4Dヒューマンオブジェクトインタラクション(HOI)の再構築は、深さの曖昧さと頻繁な閉塞のため、依然として困難である。既存のメソッドは、しばしばマルチステージパイプラインや反復的な最適化に依存しており、高い推論遅延、リアルタイム要件の満たの欠如、エラーの蓄積のリスクがある。これらの制約に対処するため,ビデオと3Dテンプレートから人間の動きと協調物体の動きを前方に予測するエンドツーエンドの空間時間変換器THOを提案する。 THOは空間的時間的HOIタプル前処理を活用することでこれを実現している。空間的先行性は、人間の手がかりから隠蔽された物体の特徴を推測するために近接領域を利用する一方、時間的先行性は、物体の表現を洗練させ、物理的コヒーレンスを強制するために、クロスフレームの運動的相関を捉えている。大規模な実験により、THOは単一のRTX 4090 GPU上で31.5 FPSの推論速度で動作し、従来の最適化手法よりも600倍の高速化を実現し、再構築精度と時間的一貫性を同時に向上した。プロジェクトページは、https://nianheng.github.io/THO-project/.com/で公開されている。

関連論文リスト

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry [61.24189040578178]
そこで本研究では,注目機構を介し,潜在特徴表現から移動対象を直接推論する完全学習型アプローチを提案する。我々の重要な洞察は、明示的な対応推定を回避し、代わりに、モデルが暗黙的にオブジェクトとカメラの動きを歪めることを学ぶことである。提案手法は,最先端の動作セグメンテーション性能を高い効率で達成する。
論文参考訳（メタデータ） (2026-02-25T11:36:33Z)
CARI4D: Category Agnostic 4D Reconstruction of Human-Object Interaction [40.557276644446475]
本稿では,モノクロRGBビデオから,空間的かつ一時的に一貫した4次元物体間相互作用を定量的に再現する最初のカテゴリー別手法であるCARI4Dを提案する。我々のモデルは、トレーニングカテゴリを超えて一般化し、非ショットのインターネットビデオに適用することができる。
論文参考訳（メタデータ） (2025-12-12T19:11:11Z)
Forge4D: Feed-Forward 4D Human Reconstruction and Interpolation from Uncalibrated Sparse-view Videos [27.595035122927204]
本研究では,非校正されたスパースビュー映像からの時間的整列表現を効率よく校正するフィードフォワード4次元人間の再構成とモデルを提案する。新たに,隣接する2つのフレーム間の3次元ガウス運動の高密度な動きを予測するための動き予測モジュールを設計した。実験では、ドメイン内データセットとドメイン外データセットの両方において、モデルの有効性を示す。
論文参考訳（メタデータ） (2025-09-29T02:47:14Z)
InterTrack: Tracking Human Object Interaction without Object Templates [34.31283776812698]
本研究では,物体形状のテンプレートを使わずに,人間の物体の相互作用を追跡する手法を提案する。 4次元トラッキング問題をフレーム単位のポーズトラッキングと標準形状最適化に分解する。提案手法は,従来のテンプレートベースビデオトラッキングや単一フレーム再構成よりも優れていた。
論文参考訳（メタデータ） (2024-08-25T22:26:46Z)
Consistent4D: Consistent 360{\deg} Dynamic Object Generation from Monocular Video [15.621374353364468]
Consistent4Dは、モノクロビデオから4D動的オブジェクトを生成するための新しいアプローチである。我々は、360度ダイナミックオブジェクト再構成を4次元生成問題として、退屈なマルチビューデータ収集とカメラキャリブレーションの必要性を排除した。
論文参考訳（メタデータ） (2023-11-06T03:26:43Z)
Coordinate Transformer: Achieving Single-stage Multi-person Mesh Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。 3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文参考訳（メタデータ） (2023-08-20T18:23:07Z)
Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文参考訳（メタデータ） (2022-04-22T03:17:35Z)
OcclusionFusion: Occlusion-aware Motion Estimation for Real-time Dynamic 3D Reconstruction [14.130915525776055]
RGBDに基づくリアルタイム動的3次元再構成は、フレーム間運動推定の不正確さに悩まされる。オクルージョンフュージョン(OcclusionFusion, OcclusionFusion)は、オクルージョンを意識した3次元運動を計算し、再構成を誘導する手法である。本手法は,既存の単一ビューベースリアルタイム手法よりも大きなマージンで性能を向上する。
論文参考訳（メタデータ） (2022-03-15T15:09:01Z)
Motion-from-Blur: 3D Shape and Motion Estimation of Motion-blurred Objects in Videos [115.71874459429381]
本研究では,映像から3次元の運動,3次元の形状,および高度に動きやすい物体の外観を同時推定する手法を提案する。提案手法は, 高速移動物体の劣化と3次元再構成において, 従来の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-29T11:25:14Z)
Spatiotemporal Bundle Adjustment for Dynamic 3D Human Reconstruction in the Wild [49.672487902268706]
本稿では,カメラの時間的アライメントと3次元点三角測量を共同で推定する枠組みを提案する。複数の無同期・無同期ビデオカメラで捉えたイベントにおいて、人間の身体の3次元運動軌跡を再構成する。
論文参考訳（メタデータ） (2020-07-24T23:50:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。