論文の概要: RoMo: Robust Motion Segmentation Improves Structure from Motion
- arxiv url: http://arxiv.org/abs/2411.18650v1
- Date: Wed, 27 Nov 2024 01:09:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 20:28:07.586153
- Title: RoMo: Robust Motion Segmentation Improves Structure from Motion
- Title(参考訳): RoMo:ロバストモーションセグメンテーションはモーションから構造を改善する
- Authors: Lily Goli, Sara Sabour, Mark Matthews, Marcus Brubaker, Dmitry Lagun, Alec Jacobson, David J. Fleet, Saurabh Saxena, Andrea Tagliasacchi,
- Abstract要約: 本稿では,固定世界フレームを移動中のシーンの構成要素を特定するために,映像に基づくモーションセグメンテーションの新たなアプローチを提案する。
我々の単純かつ効果的な反復法であるRoMoは、光フローとエピポーラキューと事前訓練されたビデオセグメンテーションモデルを組み合わせたものである。
さらに重要なのは、市販のSfMパイプラインとセグメンテーションマスクを組み合わせることで、ダイナミックなコンテンツを持つシーンに対する最先端のカメラキャリブレーションを新たに確立し、既存の手法を実質的なマージンで上回ることだ。
- 参考スコア(独自算出の注目度): 46.77236343300953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been extensive progress in the reconstruction and generation of 4D scenes from monocular casually-captured video. While these tasks rely heavily on known camera poses, the problem of finding such poses using structure-from-motion (SfM) often depends on robustly separating static from dynamic parts of a video. The lack of a robust solution to this problem limits the performance of SfM camera-calibration pipelines. We propose a novel approach to video-based motion segmentation to identify the components of a scene that are moving w.r.t. a fixed world frame. Our simple but effective iterative method, RoMo, combines optical flow and epipolar cues with a pre-trained video segmentation model. It outperforms unsupervised baselines for motion segmentation as well as supervised baselines trained from synthetic data. More importantly, the combination of an off-the-shelf SfM pipeline with our segmentation masks establishes a new state-of-the-art on camera calibration for scenes with dynamic content, outperforming existing methods by a substantial margin.
- Abstract(参考訳): モノクロ・カジュアル・キャプチャー・ビデオから4Dシーンの再構築と生成に大きく進歩している。
これらのタスクは、既知のカメラのポーズに大きく依存するが、構造移動(Structure-from-motion, SfM)を用いたポーズを見つける問題は、しばしばビデオの動的な部分から静的に分離することに依存する。
この問題に対する堅牢なソリューションがないため、SfMカメラキャリブレーションパイプラインのパフォーマンスが制限される。
本研究では,固定世界フレームを移動中のシーンの構成要素を特定するために,映像に基づく動きのセグメンテーションを提案する。
我々の単純かつ効果的な反復法であるRoMoは、光フローとエピポーラキューと事前訓練されたビデオセグメンテーションモデルを組み合わせたものである。
モーションセグメンテーションのための教師なしベースラインや、合成データから訓練された教師なしベースラインよりも優れています。
さらに重要なのは、市販のSfMパイプラインとセグメンテーションマスクを組み合わせることで、ダイナミックなコンテンツを持つシーンに対する最先端のカメラキャリブレーションを新たに確立し、既存の手法を実質的なマージンで上回ることだ。
関連論文リスト
- Back on Track: Bundle Adjustment for Dynamic Scene Reconstruction [78.27956235915622]
従来のSLAMシステムは、カジュアルなビデオでよく見られる非常にダイナミックなシーンと格闘する。
この研究は3Dポイントトラッカーを利用して、カメラによる動的物体の動きからカメラによる動きを分離する。
私たちのフレームワークは、従来のSLAM -- バンドル調整 -- の中核を、堅牢な学習ベースの3Dトラッカーフロントエンドと組み合わせています。
論文 参考訳(メタデータ) (2025-04-20T07:29:42Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - Out of the Room: Generalizing Event-Based Dynamic Motion Segmentation
for Complex Scenes [10.936350433952668]
モーションセグメンテーション(Motion segmentation)とも呼ばれる動的シーン部品の迅速かつ信頼性の高い識別は、モバイルセンサーにとって重要な課題である。
イベントカメラはこれらの制限を克服する可能性があるが、それに対応する方法は小規模の屋内環境でのみ実証されている。
本研究は,複雑な大規模屋外環境にも展開可能な,クラスに依存しない動作セグメンテーションのイベントベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T14:59:34Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - Segmenting the motion components of a video: A long-term unsupervised model [5.801044612920816]
ビデオシーケンス上でのコヒーレントで安定した動作セグメンテーションを提供したいと思っています。
完全教師なし方式で動作する新しい長期光時間モデルを提案する。
4つのVOSに関する実験を報告し、競争力のある定量的結果を示した。
論文 参考訳(メタデータ) (2023-10-02T09:33:54Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。