Fugu-MT 論文翻訳(概要): Dense Monocular Motion Segmentation Using Optical Flow and Pseudo Depth Map: A Zero-Shot Approach

論文の概要: Dense Monocular Motion Segmentation Using Optical Flow and Pseudo Depth Map: A Zero-Shot Approach

arxiv url: http://arxiv.org/abs/2406.18837v1
Date: Thu, 27 Jun 2024 02:11:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 15:27:31.078534
Title: Dense Monocular Motion Segmentation Using Optical Flow and Pseudo Depth Map: A Zero-Shot Approach
Title（参考訳）: 光フローと擬似深度マップを用いた高密度単眼運動分割:ゼロショットアプローチ
Authors: Yuxiang Huang, Yuhao Chen, John Zelek,
Abstract要約: トレーニングを必要とせずに高密度な動きセグメンテーションを実現するための革新的なハイブリッド手法を提案する。本手法は,基礎モデルを用いて各フレームのオブジェクト提案を自動的に生成することにより開始する。最先端のモノクル深度推定モデルから得られた深度マップの統合は、光学的流れによって提供される運動キューを著しく向上させる。
参考スコア（独自算出の注目度）: 6.805017878728801
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Motion segmentation from a single moving camera presents a significant challenge in the field of computer vision. This challenge is compounded by the unknown camera movements and the lack of depth information of the scene. While deep learning has shown impressive capabilities in addressing these issues, supervised models require extensive training on massive annotated datasets, and unsupervised models also require training on large volumes of unannotated data, presenting significant barriers for both. In contrast, traditional methods based on optical flow do not require training data, however, they often fail to capture object-level information, leading to over-segmentation or under-segmentation. In addition, they also struggle in complex scenes with substantial depth variations and non-rigid motion, due to the overreliance of optical flow. To overcome these challenges, we propose an innovative hybrid approach that leverages the advantages of both deep learning methods and traditional optical flow based methods to perform dense motion segmentation without requiring any training. Our method initiates by automatically generating object proposals for each frame using foundation models. These proposals are then clustered into distinct motion groups using both optical flow and relative depth maps as motion cues. The integration of depth maps derived from state-of-the-art monocular depth estimation models significantly enhances the motion cues provided by optical flow, particularly in handling motion parallax issues. Our method is evaluated on the DAVIS-Moving and YTVOS-Moving datasets, and the results demonstrate that our method outperforms the best unsupervised method and closely matches with the state-of-theart supervised methods.
Abstract（参考訳）: 単一の移動カメラからのモーションセグメンテーションは、コンピュータビジョンの分野において重要な課題である。この課題は、未知のカメラの動きとシーンの深さ情報の欠如によって複雑化されている。ディープラーニングはこれらの問題に対処する上で印象的な能力を示しているが、教師なしモデルは大量の注釈付きデータセットを広範囲にトレーニングする必要がある。対照的に、光学フローに基づく従来の手法では、トレーニングデータを必要としないが、しばしばオブジェクトレベルの情報をキャプチャできず、過剰なセグメンテーションやアンダーセグメンテーションに繋がる。さらに、光学的流れの過度さのため、相当な深度変化と非剛性運動を伴う複雑なシーンでも苦労する。これらの課題を克服するために,ディープラーニング法と従来の光フロー法の両方の利点を活用して,トレーニングを必要とせずに高密度な動作セグメンテーションを行う,革新的なハイブリッド手法を提案する。本手法は,基礎モデルを用いて各フレームのオブジェクト提案を自動的に生成することにより開始する。これらの提案は、光学フローと相対深度マップの両方をモーションキューとして利用して、異なる運動群にまとめられる。最先端のモノクル深度推定モデルから導かれる深度マップの統合は、特に運動パララックス問題を扱う際に、光学フローによって提供される運動キューを著しく向上させる。本手法は, DAVIS-MovingとYTVOS-Movingのデータセットを用いて評価し, 提案手法が最高の教師なし手法よりも優れ, 最先端の教師付き手法と密に一致していることを示す。

関連論文リスト

GeoMotion: Rethinking Motion Segmentation via Latent 4D Geometry [61.24189040578178]
そこで本研究では,注目機構を介し,潜在特徴表現から移動対象を直接推論する完全学習型アプローチを提案する。我々の重要な洞察は、明示的な対応推定を回避し、代わりに、モデルが暗黙的にオブジェクトとカメラの動きを歪めることを学ぶことである。提案手法は,最先端の動作セグメンテーション性能を高い効率で達成する。
論文参考訳（メタデータ） (2026-02-25T11:36:33Z)
E-MoFlow: Learning Egomotion and Optical Flow from Event Data via Implicit Regularization [38.46024197872764]
オプティカルフローと6-DoFエゴモーションの推定は、通常独立して対処されてきた。ニューロモルフィック・ビジョンでは、ロバストなデータアソシエーションが欠如しているため、この2つの問題を別々に解決することは不十分な課題である。本研究では,暗黙の空間的時間的・幾何学的正則化を通じて,運動と光の流れを協調的に最適化する,教師なしのフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-14T17:33:44Z)
MotionDiff: Training-free Zero-shot Interactive Motion Editing via Flow-assisted Multi-view Diffusion [20.142107033583027]
MotionDiffは、複雑な多視点モーション編集に光フローを利用する、トレーニング不要なゼロショット拡散法である。これは、高品質な多視点一貫した運動結果を達成するために、他の物理学ベースの生成運動編集法よりも優れている。 MotionDiffは再トレーニングを必要としないので、ユーザは様々なダウンストリームタスクに便利に適応できる。
論文参考訳（メタデータ） (2025-03-22T08:32:56Z)
Motion-prior Contrast Maximization for Dense Continuous-Time Motion Estimation [34.529280562470746]
コントラスト最大化フレームワークと非直線運動を組み合わせた新たな自己監督的損失を画素レベルの軌跡の形で導入する。連続時間運動の高密度推定では, 合成学習モデルのゼロショット性能を29%向上する。
論文参考訳（メタデータ） (2024-07-15T15:18:28Z)
Dynamo-Depth: Fixing Unsupervised Depth Estimation for Dynamical Scenes [40.46121828229776]
ダイナモ・ディープス(Dynamo-Depth)は、単分子深度、3次元独立流れ場、およびラベルなし単分子ビデオからの運動セグメンテーションを共同学習することにより、動的運動を曖昧にするアプローチである。提案手法は,移動物体の深度を著しく改善したオープンおよびヌースシーンにおける単眼深度推定における最先端性能を実現する。
論文参考訳（メタデータ） (2023-10-29T03:24:16Z)
Skin the sheep not only once: Reusing Various Depth Datasets to Drive the Learning of Optical Flow [25.23550076996421]
本稿では,光学的フロー推定とステレオマッチングの幾何学的接続を活用することを提案する。モノクラー深度データセットを仮想的不均一性によってステレオデータに変換する。また、ステレオデータに仮想カメラの動きを導入し、垂直方向に沿って追加のフローを生成する。
論文参考訳（メタデータ） (2023-10-03T06:56:07Z)
ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。 MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文参考訳（メタデータ） (2022-07-19T09:19:45Z)
Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics [74.1720528573331]
教師なし単眼深度と自我運動推定は近年広く研究されている。我々は、視覚情報とIMUモーションダイナミクスを統合した新しいスケールアウェアフレームワークDynaDepthを提案する。我々は、KITTIおよびMake3Dデータセット上で広範囲な実験とシミュレーションを行うことにより、DynaDepthの有効性を検証する。
論文参考訳（メタデータ） (2022-07-11T07:50:22Z)
Attentive and Contrastive Learning for Joint Depth and Motion Field Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-13T16:45:01Z)
Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文参考訳（メタデータ） (2021-03-04T12:45:18Z)
Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文参考訳（メタデータ） (2021-02-04T14:26:42Z)
Joint Unsupervised Learning of Optical Flow and Egomotion with Bi-Level Optimization [59.9673626329892]
エピポーラ幾何を用いた光学フローとカメラモーションのグローバルな関係を利用する。我々は暗黙の微分を用いて、その実装とは無関係に低レベルの幾何最適化層を通してバックプロパゲーションを可能にする。
論文参考訳（メタデータ） (2020-02-26T22:28:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。