論文の概要: GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry
- arxiv url: http://arxiv.org/abs/2602.21810v1
- Date: Wed, 25 Feb 2026 11:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.814466
- Title: GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry
- Title(参考訳): GeoMotion: 潜在4次元幾何学による動きのセグメンテーションの再考
- Authors: Xiankang He, Peile Lin, Ying Cui, Dongyan Guo, Chunhua Shen, Xiaoqin Zhang,
- Abstract要約: そこで本研究では,注目機構を介し,潜在特徴表現から移動対象を直接推論する完全学習型アプローチを提案する。
我々の重要な洞察は、明示的な対応推定を回避し、代わりに、モデルが暗黙的にオブジェクトとカメラの動きを歪めることを学ぶことである。
提案手法は,最先端の動作セグメンテーション性能を高い効率で達成する。
- 参考スコア(独自算出の注目度): 61.24189040578178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion segmentation in dynamic scenes is highly challenging, as conventional methods heavily rely on estimating camera poses and point correspondences from inherently noisy motion cues. Existing statistical inference or iterative optimization techniques that struggle to mitigate the cumulative errors in multi-stage pipelines often lead to limited performance or high computational cost. In contrast, we propose a fully learning-based approach that directly infers moving objects from latent feature representations via attention mechanisms, thus enabling end-to-end feed-forward motion segmentation. Our key insight is to bypass explicit correspondence estimation and instead let the model learn to implicitly disentangle object and camera motion. Supported by recent advances in 4D scene geometry reconstruction (e.g., $π^3$), the proposed method leverages reliable camera poses and rich spatial-temporal priors, which ensure stable training and robust inference for the model. Extensive experiments demonstrate that by eliminating complex pre-processing and iterative refinement, our approach achieves state-of-the-art motion segmentation performance with high efficiency. The code is available at:https://github.com/zjutcvg/GeoMotion.
- Abstract(参考訳): ダイナミックシーンにおけるモーションセグメンテーションは、従来の方法では、自然にノイズの多いモーションキューからカメラポーズやポイント対応を推定することに大きく依存しているため、非常に難しい。
既存の統計的推論や反復最適化手法は、多段パイプラインの累積誤差を軽減するのに苦労しており、しばしば性能や計算コストが制限される。
対照的に、本研究では、注目機構を介して、移動対象を直接潜在特徴表現から推論し、エンドツーエンドのフィードフォワード動作セグメンテーションを可能にする、完全な学習に基づくアプローチを提案する。
我々の重要な洞察は、明示的な対応推定を回避し、代わりに、モデルが暗黙的にオブジェクトとカメラの動きを歪めることを学ぶことである。
近年の4次元シーン幾何再構成(例:$π^3$)の進歩により,提案手法は信頼性の高いカメラポーズとリッチな時空間事前情報を活用し,モデルの安定なトレーニングとロバスト推論を実現する。
大規模な実験により, 複雑な前処理と反復的精錬を不要にすることで, 最先端の動作分割性能を高い効率で達成できることが実証された。
コードはhttps://github.com/zjutcvg/GeoMotion.comで公開されている。
関連論文リスト
- The Dynamic Prior: Understanding 3D Structures for Casual Dynamic Videos [19.25337083769716]
タスク固有のトレーニングなしで動的オブジェクトを堅牢に識別するために、Dynamic Prior(ourmodel)を導入します。
我々のモデルは、カメラポーズ最適化、深度再構成、および4次元軌道推定のための最先端パイプラインにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-12-05T03:31:49Z) - Dyn-HaMR: Recovering 4D Interacting Hand Motion from a Dynamic Camera [49.82535393220003]
Dyn-HaMRは、野生のダイナミックカメラで撮影されたモノクロビデオから4Dグローバルハンドモーションを再構築する最初のアプローチである。
提案手法は,4次元メッシュ・リカバリにおいて最先端の手法を著しく上回ることを示す。
これにより、動くカメラでモノクロビデオから手の動きを復元するための新しいベンチマークが確立される。
論文 参考訳(メタデータ) (2024-12-17T12:43:10Z) - ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras [41.992980062962495]
イベントベースビジュアル・オドメトリーは、追跡とサブプロブレムのマッピング(典型的には並列)を解決することを目的としている
直接パイプライン上に,イベントベースのステレオビジュアル慣性オドメトリーシステムを構築した。
結果として得られるシステムは、現代の高解像度のイベントカメラでうまくスケールする。
論文 参考訳(メタデータ) (2024-10-12T05:35:27Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。