論文の概要: EgoForce: Robust Online Egocentric Motion Reconstruction via Diffusion Forcing
- arxiv url: http://arxiv.org/abs/2605.13041v1
- Date: Wed, 13 May 2026 05:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.834805
- Title: EgoForce: Robust Online Egocentric Motion Reconstruction via Diffusion Forcing
- Title(参考訳): EgoForce: ディフュージョンフォースによるロバストオンラインエゴセントリックモーション再構成
- Authors: Inwoo Hwang, Donggeun Lim, Hojun Jang, Young Min Kim,
- Abstract要約: EgoForceは、ノイズの多いエゴセントリック入力から長期的なフルボディモーションを再構築するためのオンラインフレームワークである。
拡散強制にインスパイアされた時間的に非対称なノイズスケジュールを持つ拡散に基づく手法を採用する。
我々のアプローチは、新しいストリーミング観測が到着するにつれて、時間的に不確実性が変化し、段階的に状態を認知する。
- 参考スコア(独自算出の注目度): 16.324256594243185
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With recent advances in embodied agents and AR devices, egocentric observations are readily available as input for real-world interactive online applications. However, egocentric viewpoints can only sporadically observe hands, in addition to the estimated head trajectory. We propose EgoForce, an online framework for reconstructing long-term full-body motion from noisy egocentric input. While existing generative frameworks can robustly handle noisy and sparse measurements, they assume a fixed-length observation window is available and are thus not suitable for real-time applications. Faster inference often relies on autoregressive prediction, sacrificing robustness. In contrast, we adopt a diffusion-based method with a temporally asymmetric noise schedule inspired by Diffusion Forcing. Specifically, our approach models temporally evolving uncertainty and incrementally denoises states as new streaming observations arrive. Combined with a noise-robust imputation strategy, EgoForce progressively generates stable and coherent full-body motion under strict causal constraints. Experiments demonstrate that our online framework outperforms existing online and offline methods, enabling long-horizon, full-body motion reconstruction in challenging egocentric scenarios.
- Abstract(参考訳): エンボディエージェントやARデバイスの最近の進歩により、実世界のインタラクティブオンラインアプリケーションの入力として、エゴセントリックな観察が容易に利用可能になった。
しかし、自我中心の視点は、推定された頭部の軌跡に加えて、散発的にしか手を観察できない。
エゴフォレス(EgoForce)は、ノイズの多いエゴセントリック入力から長期間のフルボディ動作を再構築するオンラインフレームワークである。
既存の生成フレームワークはノイズやスパースの測定を強力に処理できるが、それらは固定長の観測窓が利用可能であり、したがってリアルタイムアプリケーションには適さないと仮定する。
より高速な推論は、しばしば自己回帰予測に依存し、堅牢性を犠牲にする。
対照的に、拡散強制にインスパイアされた時間非対称ノイズスケジュールを持つ拡散に基づく手法を採用する。
具体的には、我々のアプローチは、新しいストリーミング観測が到着するにつれて、時間的に不確実性が変化し、段階的に状態を認知する。
EgoForceはノイズ・ロバスト計算と組み合わせて、厳密な因果制約の下で、安定かつコヒーレントな全体運動を徐々に生成する。
実験により、オンラインフレームワークは既存のオンラインおよびオフラインの手法よりも優れており、エゴセントリックなシナリオにおいて、長期的なフルボディのモーション再構成を可能にします。
関連論文リスト
- Towards Streaming Target Speaker Extraction via Chunk-wise Interleaved Splicing of Autoregressive Language Model [26.672519467929686]
ターゲット話者抽出(TSE)のストリーミングに適した,最初の自己回帰型(AR)モデルを提案する。
提案手法では,高効率かつ安定したストリーミング推論を実現するために,チャンクワイズ・インターリーブド・スプリシング・パラダイムを導入している。
Libri2Mixの実験では、AR生成ベースラインは低レイテンシで性能劣化を示すが、本手法は100%安定性と優れた知性を維持している。
論文 参考訳(メタデータ) (2026-04-21T16:25:22Z) - Can Video Diffusion Models Predict Past Frames? Bidirectional Cycle Consistency for Reversible Interpolation [25.677744104220853]
ビデオフレームは、特定の動作セマンティクスに固執しながら、所定のエンドポイント間で現実的な中間フレームを合成することを目的としている。
本稿では,前向きと後向きの軌跡の対称性を強制する新しい双方向フレームワークを提案する。
本手法は,37フレームと73フレームの両方のタスクにおいて,画像品質,運動の滑らかさ,動的制御における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-02T06:58:46Z) - FAR-Drive: Frame-AutoRegressive Video Generation in Closed-Loop Autonomous Driving [11.275815014211046]
自律運転のための学習ベースのクローズドループシミュレータの構築は、3つの大きな課題を提起する。
長期の時間的・横断的な一貫性、反復的自己条件下での自己回帰劣化の緩和、低遅延推論制約を満たす。
自動運転のためのフレームレベル自動回帰ビデオ生成フレームワークであるFAR-Driveを提案する。
論文 参考訳(メタデータ) (2026-03-16T07:40:13Z) - OmniForcing: Unleashing Real-time Joint Audio-Visual Generation [51.031726911410594]
最近のジョイントオーディオ・視覚拡散モデルは、優れた生成品質を実現するが、高いレイテンシーに悩まされる。
OmniForcingは、オフラインの双方向拡散モデルを高忠実度ストリーミングオートレジェネレータに蒸留する最初のフレームワークである。
論文 参考訳(メタデータ) (2026-03-12T08:17:36Z) - SoulX-FlashTalk: Real-Time Infinite Streaming of Audio-Driven Avatars via Self-Correcting Bidirectional Distillation [16.34443339642213]
textbfX-FlashTalkは、textbf32 FPSのリアルタイムスループットを達成しながら、textbfsub秒の起動遅延(0.87秒)を達成する14Bスケールのシステムである。
SoulX-FlashTalkは、Textbf32 FPSのリアルタイムスループットを達成しつつ、Textbfsub秒の起動遅延(0.87秒)を達成する最初の14Bスケールシステムである。
論文 参考訳(メタデータ) (2025-12-29T11:18:24Z) - End-to-End Training for Autoregressive Video Diffusion via Self-Resampling [63.84672807009907]
自己回帰ビデオ拡散モデルは、世界シミュレーションの可能性を保っているが、列車テストミスマッチに起因する露出バイアスに弱い。
教師なしのフレームワークであるResampling Forcingを導入し、スクラッチから大規模まで自動回帰ビデオモデルのトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-12-17T18:53:29Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - REWIND: Real-Time Egocentric Whole-Body Motion Diffusion with Exemplar-Based Identity Conditioning [95.07708090428814]
本稿では,一段階拡散モデルREWINDを提案する。
身体中心運動と手の動きの相関を効果的にモデル化する。
また、ターゲットアイデンティティの小さなポーズ例に基づく新しいアイデンティティ条件付け手法を提案し、動き推定品質をさらに向上させる。
論文 参考訳(メタデータ) (2025-04-07T11:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。