論文の概要: End-to-end video instance segmentation via spatial-temporal graph neural
networks
- arxiv url: http://arxiv.org/abs/2203.03145v1
- Date: Mon, 7 Mar 2022 05:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 17:16:58.323573
- Title: End-to-end video instance segmentation via spatial-temporal graph neural
networks
- Title(参考訳): 時空間グラフニューラルネットワークによるエンドツーエンドビデオインスタンスセグメンテーション
- Authors: Tao Wang, Ning Xu, Kean Chen and Weiyao Lin
- Abstract要約: ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
- 参考スコア(独自算出の注目度): 30.748756362692184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video instance segmentation is a challenging task that extends image instance
segmentation to the video domain. Existing methods either rely only on
single-frame information for the detection and segmentation subproblems or
handle tracking as a separate post-processing step, which limit their
capability to fully leverage and share useful spatial-temporal information for
all the subproblems. In this paper, we propose a novel graph-neural-network
(GNN) based method to handle the aforementioned limitation. Specifically, graph
nodes representing instance features are used for detection and segmentation
while graph edges representing instance relations are used for tracking. Both
inter and intra-frame information is effectively propagated and shared via
graph updates and all the subproblems (i.e. detection, segmentation and
tracking) are jointly optimized in an unified framework. The performance of our
method shows great improvement on the YoutubeVIS validation dataset compared to
existing methods and achieves 35.2% AP with a ResNet-50 backbone, operating at
22 FPS. Code is available at http://github.com/lucaswithai/visgraph.git .
- Abstract(参考訳): ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存の手法では、検出とセグメンテーションのための単一のフレーム情報のみに依存するか、トラッキングを別の処理ステップとして扱うかのどちらかであり、すべてのサブプロブレムに対して有用な空間的-時間的情報を完全に活用し共有する能力を制限する。
本稿では,前述の制限を扱うための新しいグラフニューラルネットワーク(gnn)ベースの手法を提案する。
具体的には、インスタンス特徴を表すグラフノードが検出とセグメンテーションに、インスタンス関係を表すグラフエッジがトラッキングに使用される。
フレーム内情報とフレーム内情報はグラフ更新によって効果的に伝播し共有され、全てのサブプロブレム(検出、セグメンテーション、トラッキング)は統合されたフレームワークで共同で最適化される。
提案手法の性能は,既存の手法と比較してYoutubeVIS検証データセットを大幅に改善し,ResNet-50バックボーンで35.2%のAPを実現し,22FPSで動作する。
コードはhttp://github.com/lucaswithai/visgraph.gitで入手できる。
関連論文リスト
- Two-Level Temporal Relation Model for Online Video Instance Segmentation [3.9349485816629888]
オフライン端末の性能に匹敵するオンライン手法を提案する。
オブジェクトをエンコードし、時間を通して関連付ける、メッセージパッシンググラフニューラルネットワークを導入する。
提案モデルは,YouTube-VISデータセット上で,訓練されたエンドツーエンド,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-30T10:01:01Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - Human Instance Segmentation and Tracking via Data Association and
Single-stage Detector [17.46922710432633]
人間のビデオインスタンスのセグメンテーションは、人間の活動のコンピュータ理解において重要な役割を果たす。
現在のVISメソッドのほとんどはMask-RCNNフレームワークに基づいている。
単段検出器を用いた人間のビデオ・インスタンス・セグメンテーションのための新しい手法を開発した。
論文 参考訳(メタデータ) (2022-03-31T11:36:09Z) - 1st Place Solution for YouTubeVOS Challenge 2021:Video Instance
Segmentation [0.39146761527401414]
ビデオインスタンス(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。
我々はTemporally Correlated Instance (TCIS) と Bidirectional Tracking (BiTrack) という2つのモジュールを提案する。
これらの手法をトリックの袋と組み合わせることで、ネットワーク性能はベースラインに比べて大幅に向上する。
論文 参考訳(メタデータ) (2021-06-12T00:20:38Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks [150.5425122989146]
本研究は、ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい注意グラフニューラルネットワーク(AGNN)を提案する。
AGNNは、フレームをノードとして効率的に表現し、任意のフレームペア間の関係をエッジとして表現するために、完全に連結されたグラフを構築している。
3つのビデオセグメンテーションデータセットの実験結果は、AGNNがそれぞれのケースに新しい最先端を設定していることを示している。
論文 参考訳(メタデータ) (2020-01-19T10:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。