論文の概要: Moving Object Proposals with Deep Learned Optical Flow for Video Object
Segmentation
- arxiv url: http://arxiv.org/abs/2402.08882v1
- Date: Wed, 14 Feb 2024 01:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 17:05:54.759779
- Title: Moving Object Proposals with Deep Learned Optical Flow for Video Object
Segmentation
- Title(参考訳): ビデオオブジェクトセグメンテーションのための深層学習オプティカルフローを用いた移動物体の提案
- Authors: Ge Shi and Zhili Yang
- Abstract要約: 我々は、移動オブジェクト提案(MOP)を得るために、ニューラルネットワークの最先端アーキテクチャを提案する。
まず、教師なし畳み込みニューラルネットワーク(UnFlow)をトレーニングし、光学的フロー推定を生成する。
次に、光学フローネットの出力を、完全に畳み込みのSegNetモデルに描画する。
- 参考スコア(独自算出の注目度): 1.551271936792451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic scene understanding is one of the most conspicuous field of interest
among computer vision community. In order to enhance dynamic scene
understanding, pixel-wise segmentation with neural networks is widely accepted.
The latest researches on pixel-wise segmentation combined semantic and motion
information and produced good performance. In this work, we propose a state of
art architecture of neural networks to accurately and efficiently get the
moving object proposals (MOP). We first train an unsupervised convolutional
neural network (UnFlow) to generate optical flow estimation. Then we render the
output of optical flow net to a fully convolutional SegNet model. The main
contribution of our work is (1) Fine-tuning the pretrained optical flow model
on the brand new DAVIS Dataset; (2) Leveraging fully convolutional neural
networks with Encoder-Decoder architecture to segment objects. We developed the
codes with TensorFlow, and executed the training and evaluation processes on an
AWS EC2 instance.
- Abstract(参考訳): 動的シーン理解はコンピュータビジョンコミュニティの中で最も目立った分野の1つである。
動的シーン理解を強化するために,ニューラルネットワークを用いた画素分割が広く受け入れられている。
ピクセルワイドセグメンテーションに関する最新の研究はセマンティック情報とモーション情報を組み合わせて、優れたパフォーマンスを実現した。
本研究では,移動物体提案(mop)を正確かつ効率的に得るために,ニューラルネットワークの最先端の技術アーキテクチャを提案する。
まず,教師なし畳み込みニューラルネットワーク(unflow)を訓練し,オプティカルフロー推定を行う。
次に、光学フローネットの出力を完全な畳み込みSegNetモデルに描画する。
本研究の主な貢献は、(1)新しいDAVISデータセット上で事前学習された光フローモデルを微調整すること、(2)Encoder-Decoderアーキテクチャによる完全な畳み込みニューラルネットワークを活用してオブジェクトをセグメント化することである。
TensorFlowを使ってコードを開発し、AWS EC2インスタンス上でトレーニングと評価プロセスを実行しました。
関連論文リスト
- Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - FAMINet: Learning Real-time Semi-supervised Video Object Segmentation
with Steepest Optimized Optical Flow [21.45623125216448]
半教師付きビデオオブジェクトセグメンテーション(VOS)は、ビデオシーケンス内のいくつかの動くオブジェクトをセグメント化することを目的としており、これらのオブジェクトは第一フレームのアノテーションによって指定される。
光の流れは、セグメンテーションの精度を向上させるために、多くの既存の半教師付きVOS法で考慮されてきた。
本稿では,特徴抽出ネットワーク(F),外観ネットワーク(A),運動ネットワーク(M),統合ネットワーク(I)からなるFAMINetを提案する。
論文 参考訳(メタデータ) (2021-11-20T07:24:33Z) - Optical Flow Estimation from a Single Motion-blurred Image [66.2061278123057]
画像内の動きのぼかしは、基本的なコンピュータビジョンの問題に実用的な関心を持つ可能性があります。
本研究では,単一動画像からの光流れをエンドツーエンドで推定する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-03-04T12:45:18Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - MotionSqueeze: Neural Motion Feature Learning for Video Understanding [46.82376603090792]
モーションはビデオを理解する上で重要な役割を担い、ビデオ分類のための最先端のニューラルモデルにはモーション情報が含まれる。
本研究では,光学流の外部および重い計算を内部および軽量な運動特徴学習に置き換える。
提案手法は,アクション認識のための4つの標準ベンチマークにおいて,少ない追加コストで大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2020-07-20T08:30:14Z) - Interactive Video Object Segmentation Using Global and Local Transfer
Modules [51.93009196085043]
我々はアノテーションネットワーク(A-Net)と転送ネットワーク(T-Net)からなるディープニューラルネットワークを開発する。
A-Netは、フレーム上のユーザ記述を前提として、エンコーダ-デコーダアーキテクチャに基づいたセグメンテーション結果を生成する。
ユーザスクリブルをエミュレートし,補助的な損失を生かして,ネットワーク全体を2段階に分けてトレーニングする。
論文 参考訳(メタデータ) (2020-07-16T06:49:07Z) - Embedded Encoder-Decoder in Convolutional Networks Towards Explainable
AI [0.0]
本稿では,刺激の視覚的特徴を表す新しい説明可能な畳み込みニューラルネットワーク(XCNN)を提案する。
CIFAR-10, Tiny ImageNet, MNISTデータセットを用いた実験結果から, 提案アルゴリズム (XCNN) をCNNで説明可能なものにすることに成功した。
論文 参考訳(メタデータ) (2020-06-19T15:49:39Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。