論文の概要: MonoMobility: Zero-Shot 3D Mobility Analysis from Monocular Videos
- arxiv url: http://arxiv.org/abs/2505.11868v1
- Date: Sat, 17 May 2025 06:21:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.906048
- Title: MonoMobility: Zero-Shot 3D Mobility Analysis from Monocular Videos
- Title(参考訳): モノモビリティ:モノクロ映像からのゼロショット3Dモビリティ解析
- Authors: Hongyi Zhou, Xiaogang Wang, Yulan Guo, Kai Xu,
- Abstract要約: モノクロビデオから0ショットで3Dモビリティを解析できる革新的なフレームワークを提案する。
このフレームワークは、単眼ビデオのみを使用して、動きの部分と動きの属性を正確に解析することができ、注釈付きトレーニングデータの必要性を完全に排除することができる。
そこで本研究では,音声オブジェクトに特化して設計された動的シーン最適化アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 43.906631899750906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurately analyzing the motion parts and their motion attributes in dynamic environments is crucial for advancing key areas such as embodied intelligence. Addressing the limitations of existing methods that rely on dense multi-view images or detailed part-level annotations, we propose an innovative framework that can analyze 3D mobility from monocular videos in a zero-shot manner. This framework can precisely parse motion parts and motion attributes only using a monocular video, completely eliminating the need for annotated training data. Specifically, our method first constructs the scene geometry and roughly analyzes the motion parts and their initial motion attributes combining depth estimation, optical flow analysis and point cloud registration method, then employs 2D Gaussian splatting for scene representation. Building on this, we introduce an end-to-end dynamic scene optimization algorithm specifically designed for articulated objects, refining the initial analysis results to ensure the system can handle 'rotation', 'translation', and even complex movements ('rotation+translation'), demonstrating high flexibility and versatility. To validate the robustness and wide applicability of our method, we created a comprehensive dataset comprising both simulated and real-world scenarios. Experimental results show that our framework can effectively analyze articulated object motions in an annotation-free manner, showcasing its significant potential in future embodied intelligence applications.
- Abstract(参考訳): 動的環境における動作部分とその動作特性を正確に解析することは、エンボディインテリジェンスのような重要な領域を前進させる上で重要である。
濃密なマルチビュー画像や詳細な部分レベルのアノテーションに依存する既存の手法の限界に対処し、モノクロビデオからゼロショットで3Dモビリティを解析できる革新的なフレームワークを提案する。
このフレームワークは、単眼ビデオのみを使用して、動きの部分と動きの属性を正確に解析することができ、注釈付きトレーニングデータの必要性を完全に排除することができる。
具体的には,まずシーン形状を構築し,奥行き推定,光フロー解析,点雲登録を併用した動き特性を大まかに解析し,シーン表現に2次元ガウススプラッティングを用いる。
そこで本研究では,音節オブジェクトに特化して設計されたエンドツーエンドの動的シーン最適化アルゴリズムを導入し,システムに「回転」,「翻訳」,さらに複雑な動き(「回転+翻訳」)を扱えるように初期解析結果を改良し,高い柔軟性と汎用性を示す。
提案手法の堅牢性と広範囲な適用性を検証するため,シミュレーションシナリオと実世界のシナリオを組み合わせた包括的データセットを構築した。
実験結果から,本フレームワークはアノテーションのない動作を効果的に分析し,将来的なインテリジェンス応用の可能性を示した。
関連論文リスト
- SADG: Segment Any Dynamic Gaussian Without Object Trackers [39.77468734311312]
SADG(Segment Any Dynamic Gaussian Without Object Trackers)は、オブジェクトIDに依存しない動的ガウス分割表現と意味情報を組み合わせた新しいアプローチである。
我々は,Segment Anything Model(SAM)から生成されるマスクを活用し,ハードピクセルマイニングに基づく新しいコントラスト学習目標を活用することで,意味論的特徴を学習する。
提案したベンチマーク上でSADGを評価し,動的シーン内のオブジェクトのセグメンテーションにおけるアプローチの優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-28T17:47:48Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Conditional Object-Centric Learning from Video [34.012087337046005]
我々は、リアルな合成シーンのための光の流れを予測するために、スロット注意を逐次拡張する。
我々は,このモデルの初期状態が,第1フレーム内の物体の質量の中心など,小さなヒントの集合に条件付けるだけで,インスタンスのセグメンテーションを大幅に改善できることを示す。
これらの利点は、トレーニング分布を超えて、新しいオブジェクト、新しいバックグラウンド、より長いビデオシーケンスに一般化される。
論文 参考訳(メタデータ) (2021-11-24T16:10:46Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。