論文の概要: Deep Learning for Robust Motion Segmentation with Non-Static Cameras
- arxiv url: http://arxiv.org/abs/2102.10929v1
- Date: Mon, 22 Feb 2021 11:58:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 02:36:45.247443
- Title: Deep Learning for Robust Motion Segmentation with Non-Static Cameras
- Title(参考訳): 非統計カメラによるロバストモーションセグメンテーションの深層学習
- Authors: Markus Bosch
- Abstract要約: 本論文では,MOSNET と呼ばれる非静的なカメラで撮影するモーションセグメンテーションのための新たな DCNN ベースのアプローチを提案する。
他のアプローチは空間的または時間的文脈に焦点を当てているが、提案手法は3d畳み込みをビデオフレームの時間的特徴を分解する重要な技術として用いる。
このネットワークは、シーン中に画像コンテンツが大幅に変化する静電カメラで撮影されたシーンでうまく機能します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a new end-to-end DCNN based approach for motion
segmentation, especially for video sequences captured with such non-static
cameras, called MOSNET. While other approaches focus on spatial or temporal
context only, the proposed approach uses 3D convolutions as a key technology to
factor in, spatio-temporal features in cohesive video frames. This is done by
capturing temporal information in features with a low and also with a high
level of abstraction. The lean network architecture with about 21k trainable
parameters is mainly based on a pre-trained VGG-16 network. The MOSNET uses a
new feature map fusion technique, which enables the network to focus on the
appropriate level of abstraction, resolution, and the appropriate size of the
receptive field regarding the input. Furthermore, the end-to-end deep learning
based approach can be extended by feature based image alignment as a
pre-processing step, which brings a gain in performance for some scenes.
Evaluating the end-to-end deep learning based MOSNET network in a scene
independent manner leads to an overall F-measure of 0.803 on the CDNet2014
dataset. A small temporal window of five input frames, without the need of any
initialization is used to obtain this result. Therefore the network is able to
perform well on scenes captured with non-static cameras where the image content
changes significantly during the scene. In order to get robust results in
scenes captured with a moving camera, feature based image alignment can
implemented as pre-processing step. The MOSNET combined with pre-processing
leads to an F-measure of 0.685 when cross-evaluating with a relabeled LASIESTA
dataset, which underpins the capability generalise of the MOSNET.
- Abstract(参考訳): 本研究では、モーションセグメンテーションのための新しいDCNNベースのアプローチ、特にMOSNETと呼ばれる非静電カメラで撮影されたビデオシーケンスについて提案する。
他のアプローチは空間的または時間的コンテキストのみに焦点を当てているが、提案されたアプローチは3D畳み込みを、コヒーシブビデオフレームにおける時空間的特徴を決定づける重要な技術として利用する。
これは低レベルの機能と高レベルの抽象化を備えた時間的情報をキャプチャすることで実現される。
約21kのトレーニング可能なパラメータを持つリーンネットワークアーキテクチャは、主にトレーニング済みのVGG-16ネットワークに基づいている。
MOSNETは新たな機能マップ融合技術を用いており、ネットワークは入力に関する適切な抽象化レベル、解像度、および受容領域の適切なサイズにフォーカスすることができる。
さらに、エンドツーエンドのディープラーニングベースのアプローチは、機能ベースのイメージアライメントを前処理ステップとして拡張することができるため、いくつかのシーンのパフォーマンスが向上する。
エンドツーエンドのディープラーニングベースのMOSNETネットワークをシーン独立に評価すると、CDNet2014データセット上での全体的なF測定は0.803となる。
この結果を得るために、初期化を必要としない5つの入力フレームからなる小さな時間窓を使用する。
したがって、ネットワークは、シーン中に画像内容が大きく変化する非静的カメラで撮影されたシーンでうまく動作することができる。
移動カメラで撮影したシーンで堅牢な結果を得るために、特徴ベースの画像アライメントを前処理ステップとして実装することができる。
MOSNETと前処理を組み合わせることで、MOSNETの機能一般化を支えるLASIESTAデータセットとの相互評価において、F値が0.685になる。
関連論文リスト
- Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - KRONC: Keypoint-based Robust Camera Optimization for 3D Car Reconstruction [58.04846444985808]
KRONCは、オブジェクトに関する事前知識を活用して、セマンティックキーポイントを通してその表現を再構築することで、ビューポーズを推論する新しいアプローチである。
車両シーンに焦点を当てたKRONCは、キーポイントのバックプロジェクションを特異点に収束させることを目的とした光最適化問題の解として、ビューの位置を推定することができる。
論文 参考訳(メタデータ) (2024-09-09T08:08:05Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Cross-Attention Transformer for Video Interpolation [3.5317804902980527]
TAIN (Transformers and Attention for video Interpolation) は、2つの連続した画像フレームが配置された中間フレームを補間することを目的としている。
最初に、予測フレームと類似した外観の入力画像特徴をグローバルに集約するために、CS(Cross-Similarity)と呼ばれる新しいビジュアルトランスフォーマーモジュールを提示する。
CS特徴の排他性を考慮し,一方のフレームから他方のフレーム上のCS特徴に焦点を合わせるためのイメージアテンション(IA)モジュールを提案する。
論文 参考訳(メタデータ) (2022-07-08T21:38:54Z) - RADNet: A Deep Neural Network Model for Robust Perception in Moving
Autonomous Systems [8.706086688708014]
我々は,グローバルカメラの動きの度合いに基づいて,映像のランク付けを行う新しいランキング手法を開発した。
上位のカメラビデオでは、アクション検出の精度が低下している。
本稿では,カメラの動作効果に頑健な動作検出パイプラインを提案し,それを実証的に検証する。
論文 参考訳(メタデータ) (2022-04-30T23:14:08Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z) - An End-to-end Framework For Low-Resolution Remote Sensing Semantic
Segmentation [0.5076419064097732]
超解像とセマンティックセグメンテーションモジュールを結合したエンドツーエンドフレームワークを提案する。
これにより、セマンティックセグメンテーションネットワークが再構成プロセスを実行し、入力されたイメージを便利なテクスチャで修正することができる。
その結果,本フレームワークは,ネイティブな高解像度データに近いセグメンテーション性能を実現することができることがわかった。
論文 参考訳(メタデータ) (2020-03-17T21:41:22Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FusionLane: Multi-Sensor Fusion for Lane Marking Semantic Segmentation
Using Deep Neural Networks [1.0062127381149395]
本稿では,LIDARとカメラ融合深層ニューラルネットワークに基づくレーンマーキングセマンティックセマンティックセマンティクス手法を提案する。
14,000以上の画像データセットを用いた実験により,雲鳥の眼球図のセマンティックセグメンテーションにおいて,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-03-09T20:33:30Z) - Medical Image Segmentation via Unsupervised Convolutional Neural Network [1.6396833577035679]
半教師なしまたは非教師付きで訓練可能な,新しい学習ベースセグメンテーションモデルを提案する。
我々は畳み込みニューラルネットワーク(ConvNet)を介してエッジのないアクティブ輪郭(ACWE)フレームワークをパラメータ化する。
本手法は単一光子放射CT(SPECT)画像の文脈で高速で高品質な骨分割を実現する。
論文 参考訳(メタデータ) (2020-01-28T03:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。