論文の概要: Learning to Segment Rigid Motions from Two Frames
- arxiv url: http://arxiv.org/abs/2101.03694v1
- Date: Mon, 11 Jan 2021 04:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 21:55:33.361661
- Title: Learning to Segment Rigid Motions from Two Frames
- Title(参考訳): 2つのフレームからの剛体運動のセグメンテーション学習
- Authors: Gengshan Yang and Deva Ramanan
- Abstract要約: 本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
- 参考スコア(独自算出の注目度): 72.14906744113125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Appearance-based detectors achieve remarkable performance on common scenes,
but tend to fail for scenarios lack of training data. Geometric motion
segmentation algorithms, however, generalize to novel scenes, but have yet to
achieve comparable performance to appearance-based ones, due to noisy motion
estimations and degenerate motion configurations. To combine the best of both
worlds, we propose a modular network, whose architecture is motivated by a
geometric analysis of what independent object motions can be recovered from an
egomotion field. It takes two consecutive frames as input and predicts
segmentation masks for the background and multiple rigidly moving objects,
which are then parameterized by 3D rigid transformations. Our method achieves
state-of-the-art performance for rigid motion segmentation on KITTI and Sintel.
The inferred rigid motions lead to a significant improvement for depth and
scene flow estimation. At the time of submission, our method ranked 1st on
KITTI scene flow leaderboard, out-performing the best published method (scene
flow error: 4.89% vs 6.31%).
- Abstract(参考訳): 外観に基づく検出器は一般的な場面で顕著な性能を発揮するが、訓練データの欠如により失敗する傾向がある。
しかし、幾何学的モーションセグメンテーションアルゴリズムは、新しいシーンに一般化するが、ノイズの多いモーション推定と退化運動構成のため、外観に基づくシーンに匹敵する性能をまだ達成していない。
両世界のベストを組み合わせるために,エゴモーション場からどのような独立な物体の動きを復元できるかの幾何学的解析により,アーキテクチャを動機付けるモジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
推測された剛性運動は、深さとシーンフローの推定を著しく改善する。
提案時点で,提案手法はkitti scene flow leaderboardで第1位にランクインし,最高の公開手法(scene flow error: 4.89% vs 6.31%)を上回った。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - Shape of Motion: 4D Reconstruction from a Single Video [51.04575075620677]
本稿では,全列長3D動作を特徴とする汎用動的シーンを再構築する手法を提案する。
シーン動作をコンパクトなSE3モーションベースで表現することで,3次元動作の低次元構造を利用する。
本手法は,3D/2Dの長距離動き推定と動的シーンにおける新しいビュー合成の両面において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z) - PARIS: Part-level Reconstruction and Motion Analysis for Articulated
Objects [17.191728053966873]
本研究は,調音対象に対する同時部分レベル再構成と動きパラメータ推定の課題に対処する。
パートレベルの暗黙的形状と外観モデルを学ぶ自己教師型エンドツーエンドアーキテクチャPARISを提案する。
提案手法は,オブジェクトカテゴリ全体にわたって最適化され,入力として3次元点雲が与えられるベースラインや先行作業よりも優れる。
論文 参考訳(メタデータ) (2023-08-14T18:18:00Z) - Multi-body SE(3) Equivariance for Unsupervised Rigid Segmentation and
Motion Estimation [49.56131393810713]
本稿では、SE(3)同変アーキテクチャと、この課題に教師なしで取り組むためのトレーニング戦略を提案する。
本手法は,0.25Mパラメータと0.92G FLOPを用いて,モデル性能と計算効率を両立させる。
論文 参考訳(メタデータ) (2023-06-08T22:55:32Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。