論文の概要: Fast Interactive Video Object Segmentation with Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2103.03821v1
- Date: Fri, 5 Mar 2021 17:37:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-08 14:49:15.027184
- Title: Fast Interactive Video Object Segmentation with Graph Neural Networks
- Title(参考訳): グラフニューラルネットワークによる高速インタラクティブビデオオブジェクトのセグメンテーション
- Authors: Viktor Varga, Andr\'as L\H{o}rincz
- Abstract要約: 本稿では,インタラクティブな映像オブジェクトセグメンテーションの問題に取り組むためのグラフニューラルネットワークに基づくアプローチを提案する。
我々のネットワークは超ピクセルグラフで動作し、問題の次元を数桁小さくすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pixelwise annotation of image sequences can be very tedious for humans.
Interactive video object segmentation aims to utilize automatic methods to
speed up the process and reduce the workload of the annotators. Most
contemporary approaches rely on deep convolutional networks to collect and
process information from human annotations throughout the video. However, such
networks contain millions of parameters and need huge amounts of labeled
training data to avoid overfitting. Beyond that, label propagation is usually
executed as a series of frame-by-frame inference steps, which is difficult to
be parallelized and is thus time consuming. In this paper we present a graph
neural network based approach for tackling the problem of interactive video
object segmentation. Our network operates on superpixel-graphs which allow us
to reduce the dimensionality of the problem by several magnitudes. We show,
that our network possessing only a few thousand parameters is able to achieve
state-of-the-art performance, while inference remains fast and can be trained
quickly with very little data.
- Abstract(参考訳): 画像シーケンスのピクセルワイズアノテーションは、人間にとって非常に面倒です。
インタラクティブなビデオオブジェクトセグメンテーションは、プロセスの高速化とアノテータの作業量削減に自動手法を活用することを目的としている。
現代のほとんどのアプローチは、ビデオを通して人間のアノテーションから情報を収集し処理するために深い畳み込みネットワークに依存している。
しかし、このようなネットワークには数百万のパラメータが含まれており、オーバーフィットを避けるために大量のラベル付きトレーニングデータが必要である。
それ以上に、ラベルの伝搬は通常、並列化が困難で時間を要する一連のフレームバイフレーム推論ステップとして実行されます。
本稿では,インタラクティブな映像オブジェクトセグメンテーションの問題に取り組むためのグラフニューラルネットワーク手法を提案する。
我々のネットワークは超ピクセルグラフで動作し、問題の次元を数桁小さくすることができる。
我々のネットワークは数千のパラメータしか持たず、最先端のパフォーマンスを達成できる一方で、推論は高速であり、非常に少ないデータで迅速に訓練できることを示す。
関連論文リスト
- Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - GraphVid: It Only Takes a Few Nodes to Understand a Video [0.0]
視覚的に意味のある特徴をグラフにエンコードするビデオの簡潔な表現を提案する。
我々は,スーパーピクセルをグラフノードとして考慮し,ビデオのスーパーピクセルベースグラフ表現を構築した。
グラフ畳み込みネットワークを利用して、この表現を処理し、所望の出力を予測する。
論文 参考訳(メタデータ) (2022-07-04T12:52:54Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Event Neural Networks [13.207573300016277]
イベントニューラルネットワーク(EvNets)は、繰り返しを利用して、ビデオ推論タスクの大幅な削減を実現する。
従来のニューラルネットを仮想的にEvNetに変換することは可能であることを示す。
本研究では,高レベルかつ低レベルの視覚処理において,最先端のニューラルネットワークにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2021-12-02T00:08:48Z) - RICE: Refining Instance Masks in Cluttered Environments with Graph
Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。
我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。
本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文 参考訳(メタデータ) (2021-06-29T20:29:29Z) - Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。
中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。
本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文 参考訳(メタデータ) (2021-05-24T17:34:57Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。