論文の概要: Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation
- arxiv url: http://arxiv.org/abs/2309.13248v1
- Date: Sat, 23 Sep 2023 04:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:14:41.724089
- Title: Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation
- Title(参考訳): 物体中心表現を用いた教師付き信号の学習によるアモーダル映像分割の再考
- Authors: Ke Fan, Jingshi Lei, Xuelin Qian, Miaopeng Yu, Tianjun Xiao, Tong He,
Zheng Zhang, Yanwei Fu
- Abstract要約: ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
- 参考スコア(独自算出の注目度): 47.39455910191075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video amodal segmentation is a particularly challenging task in computer
vision, which requires to deduce the full shape of an object from the visible
parts of it. Recently, some studies have achieved promising performance by
using motion flow to integrate information across frames under a
self-supervised setting. However, motion flow has a clear limitation by the two
factors of moving cameras and object deformation. This paper presents a
rethinking to previous works. We particularly leverage the supervised signals
with object-centric representation in \textit{real-world scenarios}. The
underlying idea is the supervision signal of the specific object and the
features from different views can mutually benefit the deduction of the full
mask in any specific frame. We thus propose an Efficient object-centric
Representation amodal Segmentation (EoRaS). Specially, beyond solely relying on
supervision signals, we design a translation module to project image features
into the Bird's-Eye View (BEV), which introduces 3D information to improve
current feature quality. Furthermore, we propose a multi-view fusion layer
based temporal module which is equipped with a set of object slots and
interacts with features from different views by attention mechanism to fulfill
sufficient object representation completion. As a result, the full mask of the
object can be decoded from image features updated by object slots. Extensive
experiments on both real-world and synthetic benchmarks demonstrate the
superiority of our proposed method, achieving state-of-the-art performance. Our
code will be released at \url{https://github.com/kfan21/EoRaS}.
- Abstract(参考訳): ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて特に困難な作業であり、物体の完全な形状をその可視部分から推定する必要がある。
近年, 自己監視環境下でのフレーム間の情報統合にモーションフローを用いることで, 有望な性能を実現する研究が行われている。
しかし、移動カメラと物体変形の2つの要因により、運動流は明らかに制限されている。
本稿では,過去の作品を再考する。
特に、教師付き信号とオブジェクト中心表現を \textit{real-world scenarios} で活用する。
基本的なアイデアは、特定のオブジェクトの監視信号であり、異なるビューの特徴は、特定のフレーム内の完全なマスクの推論に相互に利益をもたらす。
本稿では,効率的なオブジェクト中心表現アモーダルセグメンテーション(eora)を提案する。
特に、監督信号のみに頼らず、現在の特徴品質を改善するために3D情報を導入するバードアイビュー(Bird's-Eye View, BEV)に画像特徴を投影する翻訳モジュールを設計する。
さらに,オブジェクトスロットのセットを備え,アテンション機構により異なるビューの特徴と対話し,十分なオブジェクト表現補完を実現するマルチビュー融合層ベースのテンポラリモジュールを提案する。
その結果、オブジェクトのフルマスクは、オブジェクトスロットによって更新された画像機能からデコードできる。
実世界のベンチマークと合成ベンチマークの両方に対する大規模な実験により,提案手法の優位性を実証し,最先端性能を実現した。
我々のコードは \url{https://github.com/kfan21/EoRaS} でリリースされる。
関連論文リスト
- ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Unsupervised Video Object Segmentation via Prototype Memory Network [5.612292166628669]
教師なしビデオオブジェクトセグメンテーションは、初期フレームに接地真実マスクなしで、対象オブジェクトをビデオにセグメントすることを目的としている。
この課題は、ビデオシーケンス内で最も有能な共通オブジェクトの機能を抽出することである。
本稿では,この問題を解決するために,新しいメモリネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-08T11:08:58Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。