論文の概要: AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2110.12369v1
- Date: Sun, 24 Oct 2021 07:07:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 15:12:58.557823
- Title: AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation
- Title(参考訳): AuxAdapt: ビデオセマンティックセマンティックセグメンテーションのための安定かつ効率的なテスト時間適応
- Authors: Yizhe Zhang, Shubhankar Borse, Hong Cai, Fatih Porikli
- Abstract要約: ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
- 参考スコア(独自算出の注目度): 81.87943324048756
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In video segmentation, generating temporally consistent results across frames
is as important as achieving frame-wise accuracy. Existing methods rely either
on optical flow regularization or fine-tuning with test data to attain temporal
consistency. However, optical flow is not always avail-able and reliable.
Besides, it is expensive to compute. Fine-tuning the original model in test
time is cost sensitive.
This paper presents an efficient, intuitive, and unsupervised online
adaptation method, AuxAdapt, for improving the temporal consistency of most
neural network models. It does not require optical flow and only takes one pass
of the video. Since inconsistency mainly arises from the model's uncertainty in
its output, we propose an adaptation scheme where the model learns from its own
segmentation decisions as it streams a video, which allows producing more
confident and temporally consistent labeling for similarly-looking pixels
across frames. For stability and efficiency, we leverage a small auxiliary
segmentation network (AuxNet) to assist with this adaptation. More
specifically, AuxNet readjusts the decision of the original segmentation
network (Main-Net) by adding its own estimations to that of MainNet. At every
frame, only AuxNet is updated via back-propagation while keeping MainNet fixed.
We extensively evaluate our test-time adaptation approach on standard video
benchmarks, including Cityscapes, CamVid, and KITTI. The results demonstrate
that our approach provides label-wise accurate, temporally consistent, and
computationally efficient adaptation (5+ folds overhead reduction comparing to
state-of-the-art test-time adaptation methods).
- Abstract(参考訳): ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームの精度を達成するのと同じくらい重要である。
既存の手法では、時間的一貫性を達成するために光フローの正規化やテストデータの微調整に依存している。
しかし、光流は常に利用可能で信頼性があるとは限らない。
それに、計算は高価です。
オリジナルのモデルをテスト時間で微調整することはコストに敏感である。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応法であるauxadaptを提案する。
光学的フローは必要とせず、ビデオの1パスしか必要としない。
出力におけるモデルの不確実性から主に不整合が生じるため,本研究では,映像をストリームする際の分割決定からモデルが学習する適応方式を提案し,フレーム間の類似したピクセルに対して,より信頼性が高く時間的に一貫したラベル付けを可能にする。
安定性と効率性のために、この適応を支援するために小さな補助セグメントネットワーク(AuxNet)を利用する。
より具体的には、AuxNetはオリジナルのセグメンテーションネットワーク(Main-Net)の決定を、MainNetに独自の見積を追加することで、リフレクションする。
すべてのフレームで、メインネットを固定しながらバックプロパゲーションを介してauxnetのみが更新される。
我々は,Cityscapes,CamVid,KITTIなどの標準ビデオベンチマークに対するテスト時間適応手法を広く評価した。
その結果,提案手法はラベルの精度,時間的整合性,計算効率のよい適応(5倍以上のオーバヘッド削減)を提供することを示した。
関連論文リスト
- Online Adaptive Disparity Estimation for Dynamic Scenes in Structured
Light Systems [17.53719804060679]
このパフォーマンスギャップを埋める解決策として、自己監督型オンライン適応が提案されている。
本稿では,長い逐次入力に基づく教師なし損失関数を提案する。
提案手法は,オンライン適応速度を大幅に向上し,目に見えないデータに対して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-10-13T08:00:33Z) - TIDE: Temporally Incremental Disparity Estimation via Pattern Flow in
Structured Light System [17.53719804060679]
TIDE-Netはモノカメラ構造光システムにおける差分計算の学習手法である。
得られた画像列に投影されたパターン(パターンフロー)の変形を利用して時間情報をモデル化する。
入力フレーム毎に、パターンフローに歪んだ相関ボリューム(現在のフレームから)と不均一(以前のフレームから)を融合する。
論文 参考訳(メタデータ) (2023-10-13T07:55:33Z) - Temporal Coherent Test-Time Optimization for Robust Video Classification [55.432935503341064]
ディープニューラルネットワークは、実世界のデプロイでテストデータが破損したときに失敗する可能性がある。
テスト時の最適化は、テスト中に破損したデータに対して、モデルを堅牢性に適応する効果的な方法である。
テスト時間最適化における時間的情報を利用したロバストな分類手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T04:59:23Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Scene-Adaptive Video Frame Interpolation via Meta-Learning [54.87696619177496]
テスト時に容易に利用できる追加情報を利用することで、各ビデオにモデルを適用することを提案する。
追加パラメータを使わずに1つの勾配更新しか行わず、大幅な性能向上が得られます。
論文 参考訳(メタデータ) (2020-04-02T02:46:44Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。