論文の概要: Efficient Semantic Segmentation by Altering Resolutions for Compressed
Videos
- arxiv url: http://arxiv.org/abs/2303.07224v1
- Date: Mon, 13 Mar 2023 15:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 14:04:40.051352
- Title: Efficient Semantic Segmentation by Altering Resolutions for Compressed
Videos
- Title(参考訳): 圧縮映像の解像度変化による効率的なセマンティックセグメンテーション
- Authors: Yubin Hu, Yuze He, Yanghao Li, Jisheng Li, Yuxing Han, Jiangtao Wen,
Yong-Jin Liu
- Abstract要約: 本稿では,効率的な映像分割を実現するために,圧縮ビデオのためのAR-Segと呼ばれる修正解像度フレームワークを提案する。
AR-Segは、非キーフレームに対して低解像度を使用することで、計算コストを削減することを目的としている。
CamVidとCityscapesの実験によると、AR-Segは最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 42.944135041061166
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Video semantic segmentation (VSS) is a computationally expensive task due to
the per-frame prediction for videos of high frame rates. In recent work,
compact models or adaptive network strategies have been proposed for efficient
VSS. However, they did not consider a crucial factor that affects the
computational cost from the input side: the input resolution. In this paper, we
propose an altering resolution framework called AR-Seg for compressed videos to
achieve efficient VSS. AR-Seg aims to reduce the computational cost by using
low resolution for non-keyframes. To prevent the performance degradation caused
by downsampling, we design a Cross Resolution Feature Fusion (CReFF) module,
and supervise it with a novel Feature Similarity Training (FST) strategy.
Specifically, CReFF first makes use of motion vectors stored in a compressed
video to warp features from high-resolution keyframes to low-resolution
non-keyframes for better spatial alignment, and then selectively aggregates the
warped features with local attention mechanism. Furthermore, the proposed FST
supervises the aggregated features with high-resolution features through an
explicit similarity loss and an implicit constraint from the shared decoding
layer. Extensive experiments on CamVid and Cityscapes show that AR-Seg achieves
state-of-the-art performance and is compatible with different segmentation
backbones. On CamVid, AR-Seg saves 67% computational cost (measured in GFLOPs)
with the PSPNet18 backbone while maintaining high segmentation accuracy. Code:
https://github.com/THU-LYJ-Lab/AR-Seg.
- Abstract(参考訳): ビデオセマンティックセグメンテーション(VSS)は、フレームレートの高いビデオのフレーム単位の予測のために計算コストがかかるタスクである。
近年,vssの効率化のために,コンパクトモデルや適応型ネットワーク戦略が提案されている。
しかし、彼らは入力側から計算コストに影響を与える重要な要因、すなわち入力解像度を考慮しなかった。
本稿では,効率的なVSSを実現するために,圧縮ビデオのためのAR-Segと呼ばれる変換分解能フレームワークを提案する。
AR-Segは、キーフレーム以外の低解像度で計算コストを削減することを目的としている。
ダウンサンプリングによる性能劣化を防止するため,クロスレゾリューション・フィーチャー・フュージョン(CreFF)モジュールを設計し,新しい特徴類似性訓練(FST)戦略で監視する。
具体的には、CreFFはまず圧縮されたビデオに格納されたモーションベクトルを使用して、高解像度のキーフレームから低解像度の非キーフレームまで特徴をワープし、空間的なアライメントを改善する。
さらに,fstは,共有デコーディング層からの明示的な類似性損失と暗黙的な制約により,高分解能特徴を有する集約特徴を監督する。
CamVidとCityscapesの大規模な実験によると、AR-Segは最先端のパフォーマンスを実現し、異なるセグメンテーションバックボーンと互換性がある。
CamVidでは、AR-Segは高いセグメンテーション精度を維持しながらPSPNet18バックボーンで67%の計算コスト(GFLOPで測定)を節約する。
コード:https://github.com/THU-LYJ-Lab/AR-Seg
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Differentiable Resolution Compression and Alignment for Efficient Video
Classification and Retrieval [16.497758750494537]
本稿では,高解像度圧縮・アライメント機構を備えた効率的な映像表現ネットワークを提案する。
我々は、相性および非相性フレーム特徴を符号化するために、微分可能なコンテキスト対応圧縮モジュールを利用する。
我々は,異なる解像度のフレーム特徴間のグローバル時間相関を捉えるために,新しい解像度変換器層を導入する。
論文 参考訳(メタデータ) (2023-09-15T05:31:53Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - A Codec Information Assisted Framework for Efficient Compressed Video
Super-Resolution [15.690562510147766]
リカレントニューラルネットワークアーキテクチャを用いたビデオ超解法(VSR)は、長距離時間依存性の効率的なモデリングのため、有望なソリューションである。
圧縮ビデオの繰り返しVSRモデルの高速化と高速化を目的としたコーデック情報支援フレームワーク(CIAF)を提案する。
論文 参考訳(メタデータ) (2022-10-15T08:48:29Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - Decomposition, Compression, and Synthesis (DCS)-based Video Coding: A
Neural Exploration via Resolution-Adaptive Learning [30.54722074562783]
入力映像をそれぞれの空間テクスチャフレーム(STF)に分解する。
次に,一般的なビデオコーダを用いて圧縮する。
最後に,デコードされたSTFとTMFをネイティブ入力と同じ解像度で合成し,高品質なビデオ再構成を実現する。
論文 参考訳(メタデータ) (2020-12-01T17:23:53Z) - Deep Space-Time Video Upsampling Networks [47.62807427163614]
ビデオ超解像(VSR)とフレーム(FI)は伝統的なコンピュータビジョンの問題である。
本稿では, VSR と FI を効率よく融合して, 時空ビデオアップサンプリングを行うためのエンドツーエンドフレームワークを提案する。
その結果, 時間(x7速)とパラメータ数(30%)を基準線と比較し, 定量的, 質的にも良好な結果が得られた。
論文 参考訳(メタデータ) (2020-04-06T07:04:21Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。