Fugu-MT 論文翻訳(概要): Fast Interactive Video Object Segmentation with Graph Neural Networks

論文の概要: Fast Interactive Video Object Segmentation with Graph Neural Networks

arxiv url: http://arxiv.org/abs/2103.03821v1
Date: Fri, 5 Mar 2021 17:37:12 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-08 14:49:15.027184
Title: Fast Interactive Video Object Segmentation with Graph Neural Networks
Title（参考訳）: グラフニューラルネットワークによる高速インタラクティブビデオオブジェクトのセグメンテーション
Authors: Viktor Varga, Andr\'as L\H{o}rincz
Abstract要約: 本稿では,インタラクティブな映像オブジェクトセグメンテーションの問題に取り組むためのグラフニューラルネットワークに基づくアプローチを提案する。我々のネットワークは超ピクセルグラフで動作し、問題の次元を数桁小さくすることができる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Pixelwise annotation of image sequences can be very tedious for humans. Interactive video object segmentation aims to utilize automatic methods to speed up the process and reduce the workload of the annotators. Most contemporary approaches rely on deep convolutional networks to collect and process information from human annotations throughout the video. However, such networks contain millions of parameters and need huge amounts of labeled training data to avoid overfitting. Beyond that, label propagation is usually executed as a series of frame-by-frame inference steps, which is difficult to be parallelized and is thus time consuming. In this paper we present a graph neural network based approach for tackling the problem of interactive video object segmentation. Our network operates on superpixel-graphs which allow us to reduce the dimensionality of the problem by several magnitudes. We show, that our network possessing only a few thousand parameters is able to achieve state-of-the-art performance, while inference remains fast and can be trained quickly with very little data.
Abstract（参考訳）: 画像シーケンスのピクセルワイズアノテーションは、人間にとって非常に面倒です。インタラクティブなビデオオブジェクトセグメンテーションは、プロセスの高速化とアノテータの作業量削減に自動手法を活用することを目的としている。現代のほとんどのアプローチは、ビデオを通して人間のアノテーションから情報を収集し処理するために深い畳み込みネットワークに依存している。しかし、このようなネットワークには数百万のパラメータが含まれており、オーバーフィットを避けるために大量のラベル付きトレーニングデータが必要である。それ以上に、ラベルの伝搬は通常、並列化が困難で時間を要する一連のフレームバイフレーム推論ステップとして実行されます。本稿では,インタラクティブな映像オブジェクトセグメンテーションの問題に取り組むためのグラフニューラルネットワーク手法を提案する。我々のネットワークは超ピクセルグラフで動作し、問題の次元を数桁小さくすることができる。我々のネットワークは数千のパラメータしか持たず、最先端のパフォーマンスを達成できる一方で、推論は高速であり、非常に少ないデータで迅速に訓練できることを示す。

関連論文リスト

Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文参考訳（メタデータ） (2022-09-20T14:41:37Z)
GraphVid: It Only Takes a Few Nodes to Understand a Video [0.0]
視覚的に意味のある特徴をグラフにエンコードするビデオの簡潔な表現を提案する。我々は,スーパーピクセルをグラフノードとして考慮し,ビデオのスーパーピクセルベースグラフ表現を構築した。グラフ畳み込みネットワークを利用して、この表現を処理し、所望の出力を予測する。
論文参考訳（メタデータ） (2022-07-04T12:52:54Z)
End-to-end video instance segmentation via spatial-temporal graph neural networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2022-03-07T05:38:08Z)
Event Neural Networks [13.207573300016277]
イベントニューラルネットワーク(EvNets)は、繰り返しを利用して、ビデオ推論タスクの大幅な削減を実現する。従来のニューラルネットを仮想的にEvNetに変換することは可能であることを示す。本研究では,高レベルかつ低レベルの視覚処理において,最先端のニューラルネットワークにおける本手法の有効性を実証する。
論文参考訳（メタデータ） (2021-12-02T00:08:48Z)
RICE: Refining Instance Masks in Cluttered Environments with Graph Neural Networks [53.15260967235835]
本稿では,インスタンスマスクのグラフベース表現を利用して,そのような手法の出力を改良する新しいフレームワークを提案する。我々は、セグメンテーションにスマートな摂動をサンプリングできるディープネットワークと、オブジェクト間の関係をエンコード可能なグラフニューラルネットワークを訓練し、セグメンテーションを評価する。本稿では,本手法によって生成された不確実性推定を用いてマニピュレータを誘導し,乱れたシーンを効率的に理解するアプリケーションについて紹介する。
論文参考訳（メタデータ） (2021-06-29T20:29:29Z)
Attention-guided Temporal Coherent Video Object Matting [78.82835351423383]
本稿では,時間的コヒーレントなマッチング結果が得られる深層学習に基づくオブジェクトマッチング手法を提案する。中心となるコンポーネントは、画像マッチングネットワークの強度を最大化するアテンションベースの時間アグリゲーションモジュールである。本稿では,最先端のビデオオブジェクトセグメンテーションネットワークを微調整することで,トリマップ生成問題を効果的に解決する方法を示す。
論文参考訳（メタデータ） (2021-05-24T17:34:57Z)
Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文参考訳（メタデータ） (2021-01-06T18:56:24Z)
Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても大規模なデータセットにはスケールしない我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文参考訳（メタデータ） (2020-11-02T17:34:45Z)
CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。 PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2020-03-24T04:55:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。