論文の概要: UVid-Net: Enhanced Semantic Segmentation of UAV Aerial Videos by
Embedding Temporal Information
- arxiv url: http://arxiv.org/abs/2011.14284v2
- Date: Thu, 27 May 2021 13:04:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 09:04:53.891766
- Title: UVid-Net: Enhanced Semantic Segmentation of UAV Aerial Videos by
Embedding Temporal Information
- Title(参考訳): UVid-Net: 時間情報埋め込みによるUAV空中映像のセマンティックセグメンテーションの強化
- Authors: Girisha S, Ujjwal Verma, Manohara Pai M M and Radhika Pai
- Abstract要約: 本研究は,ビデオセマンティックセグメンテーションの効率を向上させるため,時間情報を統合することでCNNアーキテクチャを改良する。
UAVビデオセマンティックセグメンテーションのための拡張エンコーダデコーダベースのCNNアーキテクチャ(UVid-Net)を提案する。
提案手法は,都市街路におけるUVid-Netの事前学習モデルにおいても有望な結果を得た。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation of aerial videos has been extensively used for decision
making in monitoring environmental changes, urban planning, and disaster
management. The reliability of these decision support systems is dependent on
the accuracy of the video semantic segmentation algorithms. The existing CNN
based video semantic segmentation methods have enhanced the image semantic
segmentation methods by incorporating an additional module such as LSTM or
optical flow for computing temporal dynamics of the video which is a
computational overhead. The proposed research work modifies the CNN
architecture by incorporating temporal information to improve the efficiency of
video semantic segmentation.
In this work, an enhanced encoder-decoder based CNN architecture (UVid-Net)
is proposed for UAV video semantic segmentation. The encoder of the proposed
architecture embeds temporal information for temporally consistent labelling.
The decoder is enhanced by introducing the feature-refiner module, which aids
in accurate localization of the class labels. The proposed UVid-Net
architecture for UAV video semantic segmentation is quantitatively evaluated on
extended ManipalUAVid dataset. The performance metric mIoU of 0.79 has been
observed which is significantly greater than the other state-of-the-art
algorithms. Further, the proposed work produced promising results even for the
pre-trained model of UVid-Net on urban street scene with fine tuning the final
layer on UAV aerial videos.
- Abstract(参考訳): 航空映像の意味セグメンテーションは、環境変化のモニタリング、都市計画、災害管理における意思決定に広く使われている。
これらの意思決定支援システムの信頼性は,ビデオ意味セグメンテーションアルゴリズムの精度に依存する。
既存のcnnベースの映像意味セマンティクスセグメンテーション手法は,計算オーバーヘッドである映像の時間的ダイナミクスを計算するためにlstmや光フローなどの付加モジュールを組み込むことで画像意味セマンティクスセグメンテーション手法を強化した。
提案研究は,映像セマンティックセグメンテーションの効率を向上させるために,時間情報を統合することでCNNアーキテクチャを改良する。
本稿では,uavビデオセマンティクスセグメンテーションのための拡張エンコーダデコーダベースのcnnアーキテクチャ(uvid-net)を提案する。
提案アーキテクチャのエンコーダは、時間的に一貫したラベリングのための時間情報を埋め込む。
デコーダは、クラスラベルの正確なローカライズを支援するfeature-refinerモジュールを導入することで強化される。
UAVビデオセマンティックセグメンテーションのためのUVid-Netアーキテクチャを拡張ManipalUAVidデータセット上で定量的に評価する。
パフォーマンス指標のmiouは 0.79 であり、これは他の最先端アルゴリズムよりもかなり大きい。
さらに,提案した研究は,UAV空中映像の最終層を微調整した都市路面におけるUVid-Netの事前学習モデルに対しても,有望な結果をもたらした。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - UMMAFormer: A Universal Multimodal-adaptive Transformer Framework for
Temporal Forgery Localization [16.963092523737593]
本稿では,時間的フォージェリー・ローカライゼーション(TFL)のための新しいフレームワークを提案し,マルチモーダル適応によるフォルジェリー・セグメントの予測を行う。
提案手法は,Lav-DF,TVIL,Psyndなど,ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-28T08:20:30Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Deep Multi-Branch Aggregation Network for Real-Time Semantic
Segmentation in Street Scenes [32.54045305607654]
多くの最先端のリアルタイムセマンティックセグメンテーション手法は、空間的詳細や文脈情報を犠牲にして高速な推論を行う傾向にある。
街路シーンにおけるリアルタイムセマンティックセグメンテーションを実現するために,エンコーダ・デコーダ構造に基づく新しいディープ・マルチブランチ・アグリゲーション・ネットワーク(DMA-Net)を提案する。
提案したDMA-Netは,1個のNVIDIA GTX 1080Ti GPUのみを用いて,それぞれ46.7 FPSと119.8 FPSの予測速度で,平均77.0%,平均73.6%のUnion(mIoU)が得られる。
論文 参考訳(メタデータ) (2022-03-08T12:07:32Z) - Stage-Aware Feature Alignment Network for Real-Time Semantic
Segmentation of Street Scenes [59.81228011432776]
街路シーンのリアルタイムなセマンティックセグメンテーションのためのSFANet(Stage-Aware Feature Alignment Network)を提案する。
デコーダにおける各ステージのユニークな役割を考慮に入れ、新しいステージ認識機能拡張ブロック(FEB)は、エンコーダからの特徴マップの空間的詳細と文脈的情報を強化するように設計されている。
実験の結果,提案したSFANetは,ストリートシーンのリアルタイムセマンティックセグメンテーションにおける精度と速度のバランスが良好であることがわかった。
論文 参考訳(メタデータ) (2022-03-08T11:46:41Z) - Local Memory Attention for Fast Video Semantic Segmentation [157.7618884769969]
既存の単一フレームセマンティックセグメンテーションモデルをビデオセマンティックセグメンテーションパイプラインに変換する新しいニューラルネットワークモジュールを提案する。
我々のアプローチは過去のフレームにおける意味情報の豊富な表現をメモリモジュールに集約する。
都市景観におけるセグメンテーション性能は,それぞれ1.7%,2.1%改善し,erfnetの推論時間は1.5msに抑えられた。
論文 参考訳(メタデータ) (2021-01-05T18:57:09Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation [12.462608802359936]
動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:40:59Z) - Improving Semantic Segmentation through Spatio-Temporal Consistency
Learned from Videos [39.25927216187176]
我々は、深度、エゴモーション、カメラの内在性に関する教師なし学習を活用して、単一画像のセマンティックセマンティックセグメンテーションを改善する。
セグメンテーションモデルにさらなる監視信号を与えるために、予測深度、エゴモーション、カメラ内在性を用いている。
論文 参考訳(メタデータ) (2020-04-11T07:09:29Z) - Cascaded Deep Video Deblurring Using Temporal Sharpness Prior [88.98348546566675]
提案アルゴリズムは主に,中間潜水フレームと潜水フレームの復元ステップから光フローを推定する。
まず、中間潜伏フレームから光フローを推定し、推定した光フローに基づいて潜伏フレームを復元する深部CNNモデルを開発する。
ビデオデブロアリングのドメイン知識を探索することで、深層CNNモデルをよりコンパクトで効率的なものにすることができることを示す。
論文 参考訳(メタデータ) (2020-04-06T09:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。