論文の概要: OnlineHMR: Video-based Online World-Grounded Human Mesh Recovery
- arxiv url: http://arxiv.org/abs/2603.17355v1
- Date: Wed, 18 Mar 2026 04:33:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.511783
- Title: OnlineHMR: Video-based Online World-Grounded Human Mesh Recovery
- Title(参考訳): OnlineHMR: ビデオベースのオンラインワールドGrounded Human Meshリカバリ
- Authors: Yiwen Zhao, Ce Zheng, Yufu Wang, Hsueh-Han Daniel Yang, Liting Wen, Laszlo A. Jeni,
- Abstract要約: OnlineHMRは、オンライン処理の4つの必須基準を満たす完全なオンラインフレームワークである。
OnlineHMRは、因果キー値キャッシュ設計とキュレートされたスライディングウィンドウ学習戦略によるストリーミング推論を可能にする。
実験結果から,提案手法は既存のチャンクベース手法に匹敵する性能を実現することが示された。
- 参考スコア(独自算出の注目度): 15.300739456656906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human mesh recovery (HMR) models 3D human body from monocular videos, with recent works extending it to world-coordinate human trajectory and motion reconstruction. However, most existing methods remain offline, relying on future frames or global optimization, which limits their applicability in interactive feedback and perception-action loop scenarios such as AR/VR and telepresence. To address this, we propose OnlineHMR, a fully online framework that jointly satisfies four essential criteria of online processing, including system-level causality, faithfulness, temporal consistency, and efficiency. Built upon a two-branch architecture, OnlineHMR enables streaming inference via a causal key-value cache design and a curated sliding-window learning strategy. Meanwhile, a human-centric incremental SLAM provides online world-grounded alignment under physically plausible trajectory correction. Experimental results show that our method achieves performance comparable to existing chunk-based approaches on the standard EMDB benchmark and highly dynamic custom videos, while uniquely supporting online processing. Page and code are available at https://tsukasane.github.io/Video-OnlineHMR/.
- Abstract(参考訳): 人間のメッシュリカバリ(HMR)は、モノクロビデオから3Dの人体をモデル化する。
しかし、既存のほとんどのメソッドはオフラインのままであり、将来のフレームやグローバルな最適化に依存しているため、インタラクティブなフィードバックやAR/VRやテレプレゼンスのような知覚-行動ループシナリオの適用性が制限される。
これを解決するために,システムレベルの因果性,忠実性,時間的一貫性,効率性など,オンライン処理の基本的な4つの基準を共同で満たすオンラインフレームワークである OnlineHMR を提案する。
OnlineHMRは2分岐アーキテクチャに基づいて構築されており、因果キーバリューキャッシュ設計とキュレートされたスライディングウィンドウ学習戦略によるストリーミング推論を可能にする。
一方、人間中心の漸進的SLAMは、物理的に妥当な軌道修正の下で、オンラインの世界的アライメントを提供する。
実験の結果,提案手法は,オンライン処理を独自にサポートしながら,標準EMDBベンチマークと高ダイナミックなカスタムビデオに対して,既存のチャンクベースアプローチに匹敵する性能を実現していることがわかった。
ページとコードはhttps://tsukasane.github.io/Video-OnlineHMR/で公開されている。
関連論文リスト
- OARS: Process-Aware Online Alignment for Generative Real-World Image Super-Resolution [47.35253230699505]
OARS は LR から SR への移行を評価する,プロセス対応のオンラインアライメントフレームワークである。
我々は,Real-ISRベンチマークにおいて,忠実さを維持しながら一貫した知覚的改善を示す。
論文 参考訳(メタデータ) (2026-03-13T09:12:46Z) - OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution [34.8105632078785]
フィードフォワードフレームワークであるOnlineXを導入し、ストリーミング画像のみを用いて3次元の視覚的外観と言語フィールドをオンライン的に再構築する。
我々のフレームワークは、メモリ状態を専用のアクティブな状態と永続的な安定な状態に分離し、その後、前者からの情報を結合して後者に融合させ、忠実性と安定性の両方を達成する。
論文 参考訳(メタデータ) (2026-03-02T17:52:02Z) - UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass [83.7071371474926]
UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。
我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。
本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-01-03T16:06:27Z) - Integrating Offline Pre-Training with Online Fine-Tuning: A Reinforcement Learning Approach for Robot Social Navigation [3.5801655940143413]
本稿では,Return-to-Go(RTG)を統合した,ロボットソーシャルナビゲーションのためのオフライン・オンラインファインチューニングアルゴリズムを提案する。
本アルゴリズムは,時間的歩行者動作パターンと空間的群集動態を協調的に符号化することにより,RTG値をリアルタイムに正確に推定するトランスフォーマー・ポラル融合モデルを特徴とする。
シミュレーションされた社会航法環境における実験により,本手法は最先端のベースラインに比べて高い成功率と低い衝突率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-01T03:37:02Z) - Track-On2: Enhancing Online Point Tracking with Memory [57.820749134569574]
オンライン長期追跡のためのシンプルで効率的なトランスフォーマーベースモデルであるTrack-OnをTrack-On2に拡張する。
Track-On2は、アーキテクチャの改良によるパフォーマンスと効率の向上、メモリの有効利用、および合成トレーニング戦略の改善を実現している。
論文 参考訳(メタデータ) (2025-09-23T15:00:18Z) - UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning [78.86567400365392]
オフライン軌道上でオンラインRLをシミュレートする新しいパラダイムであるセミオンライン強化学習を提案する。
長期トレーニング信号をキャプチャするために、Semi-online RLは報酬計算に割引先を返す。
実験の結果,Semi-online RLは4つの動的ベンチマークで7Bモデル間でSOTA性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-09-15T03:24:08Z) - Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach [55.76249793590689]
Video-Enhanced Offline RL (VeoRL) は、インタラクティブな世界モデルを構築するためのモデルベースの手法である。
VeoRLは、ロボット操作、自律運転、オープンワールドビデオゲームにおける視覚制御タスクにおいて、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-05-10T00:54:12Z) - Online hand gesture recognition using Continual Graph Transformers [1.3927943269211591]
リアルタイムスケルトンシーケンスストリーミングのための新しいオンライン認識システムを提案する。
提案手法は最先端の精度を実現し, 偽陽性率を大幅に低減し, リアルタイムアプリケーションにとって魅力的なソリューションとなる。
提案システムは,人間とロボットのコラボレーションや補助技術など,さまざまな領域にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-20T17:27:55Z) - Online Video Understanding: OVBench and VideoChat-Online [22.814813541695997]
マルチモーダル大言語モデル(MLLM)はオフラインビデオ理解において著しく進歩している。
これらのモデルを自律運転や人間とコンピュータのインタラクションといった現実のシナリオに適用することは、ユニークな課題を提示します。
本稿では,評価ベンチマーク,モデルアーキテクチャ,トレーニング戦略の3つの観点から,体系的な取り組みについて述べる。
論文 参考訳(メタデータ) (2024-12-31T18:17:05Z) - OnlineRefer: A Simple Online Baseline for Referring Video Object
Segmentation [75.07460026246582]
ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。
現在の最先端のメソッドはオフラインパターンに陥り、各クリップが独立してテキスト埋め込みと相互作用する。
明示的なクエリ伝搬を用いたシンプルなオンラインモデルである OnlineRefer を提案する。
論文 参考訳(メタデータ) (2023-07-18T15:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。