論文の概要: The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields
- arxiv url: http://arxiv.org/abs/2203.00115v1
- Date: Mon, 28 Feb 2022 22:05:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-03 02:52:08.031212
- Title: The Right Spin: Learning Object Motion from Rotation-Compensated Flow
Fields
- Title(参考訳): 右スピン:回転補償流れ場から物体の動きを学習する
- Authors: Pia Bideau, Erik Learned-Miller, Cordelia Schmid, Karteek Alahari
- Abstract要約: 人間がどのように動く物体を知覚するかは、コンピュータービジョンにおける長年の研究課題である。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
運動場からカメラの回転を推定する新しい確率モデルを提案する。
- 参考スコア(独自算出の注目度): 61.664963331203666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Both a good understanding of geometrical concepts and a broad familiarity
with objects lead to our excellent perception of moving objects. The human
ability to detect and segment moving objects works in the presence of multiple
objects, complex background geometry, motion of the observer and even
camouflage. How humans perceive moving objects so reliably is a longstanding
research question in computer vision and borrows findings from related areas
such as psychology, cognitive science and physics. One approach to the problem
is to teach a deep network to model all of these effects. This contrasts with
the strategy used by human vision, where cognitive processes and body design
are tightly coupled and each is responsible for certain aspects of correctly
identifying moving objects. Similarly from the computer vision perspective,
there is evidence that classical, geometry-based techniques are better suited
to the "motion-based" parts of the problem, while deep networks are more
suitable for modeling appearance. In this work, we argue that the coupling of
camera rotation and camera translation can create complex motion fields that
are difficult for a deep network to untangle directly. We present a novel
probabilistic model to estimate the camera's rotation given the motion field.
We then rectify the flow field to obtain a rotation-compensated motion field
for subsequent segmentation. This strategy of first estimating camera motion,
and then allowing a network to learn the remaining parts of the problem, yields
improved results on the widely used DAVIS benchmark as well as the recently
published motion segmentation data set MoCA (Moving Camouflaged Animals).
- Abstract(参考訳): 幾何学的概念の理解と、物体との幅広い親和性の両方が、動く物体に対する優れた認識に繋がる。
動く物体を検知して分割する人間の能力は、複数の物体、複雑な背景幾何学、オブザーバーの動き、さらにはカモフラージュの存在下で機能する。
人間が動く物体をこれほど確実に知覚することは、コンピュータビジョンにおける長年の研究課題であり、心理学、認知科学、物理学などの関連分野からの知見を借りている。
この問題の1つのアプローチは、これらすべての効果をモデル化するためのディープネットワークを教えることである。
これは、認知過程と身体設計が密結合され、それぞれが動く物体を正しく識別する特定の側面に責任を持つ人間の視覚で使われる戦略とは対照的である。
同様にコンピュータビジョンの観点からは、古典的な幾何学に基づく技術が問題の「動きに基づく」部分に適しているのに対し、ディープネットワークはモデリングの外観に適しているという証拠がある。
本研究では,カメラ回転とカメラ変換の結合により,ディープネットワークが直接絡み合うことが困難となる複雑な動き場を創りだすことができると主張する。
運動場を考慮したカメラの回転を推定する新しい確率モデルを提案する。
次に,流れ場を補正し,その後のセグメンテーションのための回転補償運動場を得る。
カメラの動きを最初に推定し、ネットワークが問題の残りの部分を学ぶというこの戦略は、広く使われているDAVISベンチマークと最近発表されたMoCA(Moving Camouflaged Animals)のモーションセグメンテーションデータセットの改善結果をもたらす。
関連論文リスト
- Motion Segmentation from a Moving Monocular Camera [3.115818438802931]
我々は、点軌跡法と光フロー法という、単眼運動分割手法の2つの一般的な分岐を生かしている。
我々は異なるシーン構造で様々な複雑な物体の動きを同時にモデル化することができる。
提案手法は,KT3DMoSegデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2023-09-24T22:59:05Z) - InstMove: Instance Motion for Object-centric Video Segmentation [70.16915119724757]
本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
論文 参考訳(メタデータ) (2023-03-14T17:58:44Z) - Unsupervised Multi-object Segmentation by Predicting Probable Motion
Patterns [92.80981308407098]
手動による監督なしに複数の画像オブジェクトを分割する手法を提案する。
この方法は静止画像からオブジェクトを抽出するが、監視のためにビデオを使用する。
シミュレーションおよび実世界のベンチマークで、最先端の教師なしオブジェクトセグメンテーション性能を示す。
論文 参考訳(メタデータ) (2022-10-21T17:57:05Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Attentive and Contrastive Learning for Joint Depth and Motion Field
Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。
モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T16:45:01Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Learning Object Depth from Camera Motion and Video Object Segmentation [43.81711115175958]
本稿では,カメラの動きを測定することによって,分割対象の深度を推定する学習の課題に対処する。
我々は、カメラとオブジェクト間の距離の変化に対してスケールされた人工的なオブジェクトセグメンテーションを作成し、そのネットワークは、セグメンテーションエラーがあっても、オブジェクトの深さを推定することを学ぶ。
ロボットカメラを用いて、YCBデータセットから物体を検知するためのアプローチと、運転中の障害物を見つけるための車両カメラとのアプローチを実証する。
論文 参考訳(メタデータ) (2020-07-11T03:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。