論文の概要: InstMove: Instance Motion for Object-centric Video Segmentation
- arxiv url: http://arxiv.org/abs/2303.08132v1
- Date: Tue, 14 Mar 2023 17:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 13:39:42.246220
- Title: InstMove: Instance Motion for Object-centric Video Segmentation
- Title(参考訳): InstMove: オブジェクト中心のビデオセグメンテーションのためのインスタンスモーション
- Authors: Qihao Liu, Junfeng Wu, Yi Jiang, Xiang Bai, Alan Yuille, Song Bai
- Abstract要約: 本研究では,オブジェクト中心ビデオのインスタンス・モーションを表すInstMoveとインスタンス・レベル・モーションについて検討する。
InstMoveは主に画像特徴の埋め込みのないインスタンスレベルのモーション情報に依存している。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために、現在のSOTAメソッドに統合できる。
- 参考スコア(独自算出の注目度): 70.16915119724757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant efforts, cutting-edge video segmentation methods still
remain sensitive to occlusion and rapid movement, due to their reliance on the
appearance of objects in the form of object embeddings, which are vulnerable to
these disturbances. A common solution is to use optical flow to provide motion
information, but essentially it only considers pixel-level motion, which still
relies on appearance similarity and hence is often inaccurate under occlusion
and fast movement. In this work, we study the instance-level motion and present
InstMove, which stands for Instance Motion for Object-centric Video
Segmentation. In comparison to pixel-wise motion, InstMove mainly relies on
instance-level motion information that is free from image feature embeddings,
and features physical interpretations, making it more accurate and robust
toward occlusion and fast-moving objects. To better fit in with the video
segmentation tasks, InstMove uses instance masks to model the physical presence
of an object and learns the dynamic model through a memory network to predict
its position and shape in the next frame. With only a few lines of code,
InstMove can be integrated into current SOTA methods for three different video
segmentation tasks and boost their performance. Specifically, we improve the
previous arts by 1.5 AP on OVIS dataset, which features heavy occlusions, and
4.9 AP on YouTubeVIS-Long dataset, which mainly contains fast-moving objects.
These results suggest that instance-level motion is robust and accurate, and
hence serving as a powerful solution in complex scenarios for object-centric
video segmentation.
- Abstract(参考訳): 重要な努力にもかかわらず、最先端のビデオセグメンテーション法は、これらの乱れに弱い物体の埋め込み形式における物体の出現に依存しているため、依然として閉塞や急激な動きに敏感である。
一般的な解決策は、光学フローを使ってモーション情報を提供することだが、基本的にはピクセルレベルの動きのみを考慮し、見た目の類似性に依存しており、オクルージョンや速い動きでは不正確であることが多い。
本研究では、オブジェクト中心ビデオセグメンテーションにおけるインスタンスレベルの動きとインスタンスレベルの動きについて検討する。
InstMoveは主に画像特徴の埋め込みが不要なインスタンスレベルのモーション情報に依存しており、物理的解釈が特徴であり、閉塞や高速移動に対してより正確で堅牢である。
ビデオセグメンテーションタスクにもっとうまく適合するために、InstMoveはインスタンスマスクを使用してオブジェクトの物理的存在をモデル化し、メモリネットワークを通じて動的モデルを学び、次のフレームの位置と形状を予測する。
数行のコードだけで、InstMoveは3つの異なるビデオセグメンテーションタスクのために現在のSOTAメソッドに統合され、パフォーマンスが向上する。
具体的には,ovisデータセットでは1.5 ap,youtubevis-longデータセットでは4.9 ap,高速に移動するオブジェクトを主とする。
これらの結果は、インスタンスレベルの動きは堅牢で正確であり、オブジェクト中心のビデオセグメンテーションの複雑なシナリオにおいて強力な解決策となることを示唆している。
関連論文リスト
- MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - NeuralDiff: Segmenting 3D objects that move in egocentric videos [92.95176458079047]
観測された3次元シーンを静的な背景と動的前景に分解する問題について検討する。
このタスクは、古典的な背景の減算問題を連想させるが、静的でダイナミックなシーンの全ての部分が大きな動きを生じさせるため、非常に難しい。
特に、自我中心のビデオについて検討し、動的コンポーネントを観察・移動するオブジェクトとアクターにさらに分離する。
論文 参考訳(メタデータ) (2021-10-19T12:51:35Z) - Event-based Motion Segmentation with Spatio-Temporal Graph Cuts [51.17064599766138]
イベントベースカメラで取得したオブジェクトを独立に識別する手法を開発した。
この方法は、予想される移動物体の数を事前に決定することなく、技術状態よりも同等以上の性能を発揮する。
論文 参考訳(メタデータ) (2020-12-16T04:06:02Z) - Betrayed by Motion: Camouflaged Object Discovery via Motion Segmentation [93.22300146395536]
本研究では,映像中のキャモフラージュされた物体を検出する計算アーキテクチャを設計し,特に物体のセグメンテーションを行うために動作情報を活用する。
最初の大規模な移動カモフラージュ動物(MoCA)ビデオデータセットを収集した。
提案手法の有効性を実証し,動作のみに依存して,DAVIS2016上の教師なしセグメンテーションプロトコル上での競合性能を実現する。
論文 参考訳(メタデータ) (2020-11-23T18:59:08Z) - Self-supervised Sparse to Dense Motion Segmentation [13.888344214818737]
単一ビデオフレームからスパース動作セグメントの密度化を学習するための自己教師付き手法を提案する。
FBMS59 と DAVIS16 でよく知られた動作セグメンテーションデータセットについて検討した。
論文 参考訳(メタデータ) (2020-08-18T11:40:18Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。