論文の概要: Dense Monocular Motion Segmentation Using Optical Flow and Pseudo Depth Map: A Zero-Shot Approach
- arxiv url: http://arxiv.org/abs/2406.18837v1
- Date: Thu, 27 Jun 2024 02:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 15:27:31.078534
- Title: Dense Monocular Motion Segmentation Using Optical Flow and Pseudo Depth Map: A Zero-Shot Approach
- Title(参考訳): 光フローと擬似深度マップを用いた高密度単眼運動分割:ゼロショットアプローチ
- Authors: Yuxiang Huang, Yuhao Chen, John Zelek,
- Abstract要約: トレーニングを必要とせずに高密度な動きセグメンテーションを実現するための革新的なハイブリッド手法を提案する。
本手法は,基礎モデルを用いて各フレームのオブジェクト提案を自動的に生成することにより開始する。
最先端のモノクル深度推定モデルから得られた深度マップの統合は、光学的流れによって提供される運動キューを著しく向上させる。
- 参考スコア(独自算出の注目度): 6.805017878728801
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motion segmentation from a single moving camera presents a significant challenge in the field of computer vision. This challenge is compounded by the unknown camera movements and the lack of depth information of the scene. While deep learning has shown impressive capabilities in addressing these issues, supervised models require extensive training on massive annotated datasets, and unsupervised models also require training on large volumes of unannotated data, presenting significant barriers for both. In contrast, traditional methods based on optical flow do not require training data, however, they often fail to capture object-level information, leading to over-segmentation or under-segmentation. In addition, they also struggle in complex scenes with substantial depth variations and non-rigid motion, due to the overreliance of optical flow. To overcome these challenges, we propose an innovative hybrid approach that leverages the advantages of both deep learning methods and traditional optical flow based methods to perform dense motion segmentation without requiring any training. Our method initiates by automatically generating object proposals for each frame using foundation models. These proposals are then clustered into distinct motion groups using both optical flow and relative depth maps as motion cues. The integration of depth maps derived from state-of-the-art monocular depth estimation models significantly enhances the motion cues provided by optical flow, particularly in handling motion parallax issues. Our method is evaluated on the DAVIS-Moving and YTVOS-Moving datasets, and the results demonstrate that our method outperforms the best unsupervised method and closely matches with the state-of-theart supervised methods.
- Abstract(参考訳): 単一の移動カメラからのモーションセグメンテーションは、コンピュータビジョンの分野において重要な課題である。
この課題は、未知のカメラの動きとシーンの深さ情報の欠如によって複雑化されている。
ディープラーニングはこれらの問題に対処する上で印象的な能力を示しているが、教師なしモデルは大量の注釈付きデータセットを広範囲にトレーニングする必要がある。
対照的に、光学フローに基づく従来の手法では、トレーニングデータを必要としないが、しばしばオブジェクトレベルの情報をキャプチャできず、過剰なセグメンテーションやアンダーセグメンテーションに繋がる。
さらに、光学的流れの過度さのため、相当な深度変化と非剛性運動を伴う複雑なシーンでも苦労する。
これらの課題を克服するために,ディープラーニング法と従来の光フロー法の両方の利点を活用して,トレーニングを必要とせずに高密度な動作セグメンテーションを行う,革新的なハイブリッド手法を提案する。
本手法は,基礎モデルを用いて各フレームのオブジェクト提案を自動的に生成することにより開始する。
これらの提案は、光学フローと相対深度マップの両方をモーションキューとして利用して、異なる運動群にまとめられる。
最先端のモノクル深度推定モデルから導かれる深度マップの統合は、特に運動パララックス問題を扱う際に、光学フローによって提供される運動キューを著しく向上させる。
本手法は, DAVIS-MovingとYTVOS-Movingのデータセットを用いて評価し, 提案手法が最高の教師なし手法よりも優れ, 最先端の教師付き手法と密に一致していることを示す。
関連論文リスト
- Motion-prior Contrast Maximization for Dense Continuous-Time Motion Estimation [34.529280562470746]
コントラスト最大化フレームワークと非直線運動を組み合わせた新たな自己監督的損失を画素レベルの軌跡の形で導入する。
連続時間運動の高密度推定では, 合成学習モデルのゼロショット性能を29%向上する。
論文 参考訳(メタデータ) (2024-07-15T15:18:28Z) - Dynamo-Depth: Fixing Unsupervised Depth Estimation for Dynamical Scenes [40.46121828229776]
ダイナモ・ディープス(Dynamo-Depth)は、単分子深度、3次元独立流れ場、およびラベルなし単分子ビデオからの運動セグメンテーションを共同学習することにより、動的運動を曖昧にするアプローチである。
提案手法は,移動物体の深度を著しく改善したオープンおよびヌースシーンにおける単眼深度推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-29T03:24:16Z) - Skin the sheep not only once: Reusing Various Depth Datasets to Drive
the Learning of Optical Flow [25.23550076996421]
本稿では,光学的フロー推定とステレオマッチングの幾何学的接続を活用することを提案する。
モノクラー深度データセットを仮想的不均一性によってステレオデータに変換する。
また、ステレオデータに仮想カメラの動きを導入し、垂直方向に沿って追加のフローを生成する。
論文 参考訳(メタデータ) (2023-10-03T06:56:07Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular
Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。
我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。
我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文 参考訳(メタデータ) (2022-07-11T07:50:22Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Joint Unsupervised Learning of Optical Flow and Egomotion with Bi-Level
Optimization [59.9673626329892]
エピポーラ幾何を用いた光学フローとカメラモーションのグローバルな関係を利用する。
我々は暗黙の微分を用いて、その実装とは無関係に低レベルの幾何最適化層を通してバックプロパゲーションを可能にする。
論文 参考訳(メタデータ) (2020-02-26T22:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。