論文の概要: Frame-To-Frame Consistent Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2008.00948v3
- Date: Thu, 27 Aug 2020 18:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 05:56:10.496503
- Title: Frame-To-Frame Consistent Semantic Segmentation
- Title(参考訳): フレーム間一貫性セマンティックセグメンテーション
- Authors: Manuel Rebol, Patrick Kn\"obelreiter
- Abstract要約: 我々は、ビデオ内の連続したフレームを通して特徴を伝播する畳み込みニューラルネットワーク(CNN)を訓練する。
その結果,時間情報を追加することで,フレーム間の一貫性とより正確な画像理解が得られることがわかった。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we aim for temporally consistent semantic segmentation
throughout frames in a video. Many semantic segmentation algorithms process
images individually which leads to an inconsistent scene interpretation due to
illumination changes, occlusions and other variations over time. To achieve a
temporally consistent prediction, we train a convolutional neural network (CNN)
which propagates features through consecutive frames in a video using a
convolutional long short term memory (ConvLSTM) cell. Besides the temporal
feature propagation, we penalize inconsistencies in our loss function. We show
in our experiments that the performance improves when utilizing video
information compared to single frame prediction. The mean intersection over
union (mIoU) metric on the Cityscapes validation set increases from 45.2 % for
the single frames to 57.9 % for video data after implementing the ConvLSTM to
propagate features trough time on the ESPNet. Most importantly, inconsistency
decreases from 4.5 % to 1.3 % which is a reduction by 71.1 %. Our results
indicate that the added temporal information produces a frame-to-frame
consistent and more accurate image understanding compared to single frame
processing. Code and videos are available at
https://github.com/mrebol/f2f-consistent-semantic-segmentation
- Abstract(参考訳): 本研究では,ビデオ中のフレーム全体にわたって時間的に一貫したセマンティックセマンティックセグメンテーションを実現することを目的とする。
多くのセマンティックセグメンテーションアルゴリズムは個別に画像を処理するが、これは照明の変化、閉塞、その他の変化による矛盾したシーン解釈につながる。
時間的に一貫した予測を実現するために,コンボリューショナル長期記憶(ConvLSTM)セルを用いて,連続するフレームを通して特徴を伝播する畳み込みニューラルネットワーク(CNN)を訓練する。
時間的特徴伝搬に加えて、損失関数の不整合を罰する。
実験では,単一フレームの予測よりも映像情報を利用する場合の性能が向上することを示した。
Cityscapesの検証セットにおける平均交叉距離(mIoU)は、単一のフレームで45.2%から、ESPNetで特徴を伝達するためにConvLSTMを実装した後、57.9%に増加する。
最も重要なことは、矛盾は4.5%から1.3%に減少し、71.1%に減少する。
その結果,時間情報の追加は,単一フレーム処理と比較して,フレーム間一貫性とより正確な画像理解を実現することが示唆された。
コードとビデオはhttps://github.com/mrebol/f2f- consistent-semantic-segmentationで入手できる。
関連論文リスト
- Space-time Reinforcement Network for Video Object Segmentation [16.67780344875854]
ビデオオブジェクトセグメンテーション(VOS)ネットワークは通常、メモリベースの手法を使用する。
これらの手法は,1) 隣接するビデオフレーム間の空間的コヒーレンスをデータの整合によって破壊し,2) 画素レベルのマッチングが望ましくないミスマッチを引き起こすという2つの問題に悩まされる。
本稿では,隣接フレーム間の補助フレームを生成することを提案し,クエリの暗黙的短時間参照として機能する。
論文 参考訳(メタデータ) (2024-05-07T06:26:30Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - Video Instance Segmentation using Inter-Frame Communication Transformers [28.539742250704695]
最近では、フレーム単位のパイプラインは、フレーム単位のメソッドよりも優れたパフォーマンスを示している。
以前は、フレーム間通信を実現するために、大量の計算とメモリ使用量が必要だった。
フレーム間の情報転送のオーバーヘッドを大幅に低減するフレーム間通信変換器(IFC)を提案する。
論文 参考訳(メタデータ) (2021-06-07T02:08:39Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z) - No frame left behind: Full Video Action Recognition [26.37329995193377]
我々は全映像の動作認識を提案し,全映像のフレームを考察する。
まず、時間次元に沿って全てのフレームアクティベーションをクラスタ化する。
次に、時間的にクラスタ内のフレームをより少ない数の表現に集約する。
論文 参考訳(メタデータ) (2021-03-29T07:44:28Z) - Learning Dynamic Network Using a Reuse Gate Function in Semi-supervised
Video Object Segmentation [27.559093073097483]
セミ監視ビデオオブジェクト(Semi-VOS)の現在のアプローチは、以前のフレームから情報を伝達し、現在のフレームのセグメンテーションマスクを生成します。
時間的情報を用いて、最小限の変更で迅速にフレームを識別する。
フレーム間の変化を推定し、ネットワーク全体を計算したり、以前のフレームの機能を再利用したりするパスを決定する、新しい動的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-21T19:40:17Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。