論文の概要: Motion-inductive Self-supervised Object Discovery in Videos
- arxiv url: http://arxiv.org/abs/2210.00221v1
- Date: Sat, 1 Oct 2022 08:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 15:26:39.868387
- Title: Motion-inductive Self-supervised Object Discovery in Videos
- Title(参考訳): 動画におけるモーションインダクティブな自己監督型物体発見
- Authors: Shuangrui Ding, Weidi Xie, Yabo Chen, Rui Qian, Xiaopeng Zhang,
Hongkai Xiong, Qi Tian
- Abstract要約: 本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 99.35664705038728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we consider the task of unsupervised object discovery in
videos. Previous works have shown promising results via processing optical
flows to segment objects. However, taking flow as input brings about two
drawbacks. First, flow cannot capture sufficient cues when objects remain
static or partially occluded. Second, it is challenging to establish temporal
coherency from flow-only input, due to the missing texture information. To
tackle these limitations, we propose a model for directly processing
consecutive RGB frames, and infer the optical flow between any pair of frames
using a layered representation, with the opacity channels being treated as the
segmentation. Additionally, to enforce object permanence, we apply temporal
consistency loss on the inferred masks from randomly-paired frames, which refer
to the motions at different paces, and encourage the model to segment the
objects even if they may not move at the current time point. Experimentally, we
demonstrate superior performance over previous state-of-the-art methods on
three public video segmentation datasets (DAVIS2016, SegTrackv2, and FBMS-59),
while being computationally efficient by avoiding the overhead of computing
optical flow as input.
- Abstract(参考訳): 本稿では,ビデオにおける教師なし物体発見の課題について考察する。
従来の研究は、セグメントオブジェクトへの光フローの処理による有望な結果を示している。
しかし、入力としての流れを取ると2つの欠点が生じる。
第一に、フローは、オブジェクトが静的または部分的に隠されているときに十分なキューをキャプチャできない。
第2に,テクスチャ情報が欠落しているため,フローのみ入力からの時間的一貫性を確立することが困難である。
これらの制約に対処するために,連続するrgbフレームを直接処理するモデルを提案し,不透明チャネルをセグメンテーションとして扱うことにより,階層表現を用いた任意のフレーム間の光フローを推定する。
さらに、物体の永続性を強制するために、ランダムにペアリングされたフレームから推定マスクに時間的整合性損失を適用し、その動きを異なるペースで参照し、現在の時点で動かなくてもオブジェクトを分割するようモデルに促す。
実験では,3つの公開ビデオセグメンテーションデータセット (davis2016, segtrackv2, fbms-59) において,従来の最先端手法よりも優れた性能を示した。
関連論文リスト
- Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - FlowVOS: Weakly-Supervised Visual Warping for Detail-Preserving and
Temporally Consistent Single-Shot Video Object Segmentation [4.3171602814387136]
本稿では,VOSデータから流れ場を学習する前景型ビジュアルワープ手法を提案する。
フローモジュールをトレーニングし、2つの弱い教師付き損失を用いてフレーム間の詳細な動きをキャプチャする。
提案手法は,高精細かつ時間的整合性を持ったセグメンテーションを生成する。
論文 参考訳(メタデータ) (2021-11-20T16:17:10Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。