Fugu-MT 論文翻訳(概要): TapLab: A Fast Framework for Semantic Video Segmentation Tapping into Compressed-Domain Knowledge

論文の概要: TapLab: A Fast Framework for Semantic Video Segmentation Tapping into Compressed-Domain Knowledge

arxiv url: http://arxiv.org/abs/2003.13260v3
Date: Tue, 18 Aug 2020 06:52:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-18 07:55:51.197261
Title: TapLab: A Fast Framework for Semantic Video Segmentation Tapping into Compressed-Domain Knowledge
Title（参考訳）: taplab - 圧縮領域知識を用いたセマンティックビデオセグメンテーションのための高速フレームワーク
Authors: Junyi Feng, Songyuan Li, Xi Li, Fei Wu, Qi Tian, Ming-Hsuan Yang, and Haibin Ling
Abstract要約: リアルタイムセマンティックビデオセグメンテーションは、推論速度の厳格な要件のために難しい課題である。最近のアプローチは主に、高効率のモデルサイズ削減に多大な努力を払っている。我々は、圧縮されたドメインからリソースを取り込み、TapLabと呼ばれるシンプルで効果的なフレームワークを提案する。
参考スコア（独自算出の注目度）: 161.4188504786512
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Real-time semantic video segmentation is a challenging task due to the strict requirements of inference speed. Recent approaches mainly devote great efforts to reducing the model size for high efficiency. In this paper, we rethink this problem from a different viewpoint: using knowledge contained in compressed videos. We propose a simple and effective framework, dubbed TapLab, to tap into resources from the compressed domain. Specifically, we design a fast feature warping module using motion vectors for acceleration. To reduce the noise introduced by motion vectors, we design a residual-guided correction module and a residual-guided frame selection module using residuals. TapLab significantly reduces redundant computations of the state-of-the-art fast semantic image segmentation models, running 3 to 10 times faster with controllable accuracy degradation. The experimental results show that TapLab achieves 70.6% mIoU on the Cityscapes dataset at 99.8 FPS with a single GPU card for the 1024x2048 videos. A high-speed version even reaches the speed of 160+ FPS. Codes will be available soon at https://github.com/Sixkplus/TapLab.
Abstract（参考訳）: リアルタイムセマンティックビデオセグメンテーションは、推論速度の厳格な要件のために難しい課題である。最近のアプローチは主に、高効率のモデルサイズ削減に多大な努力を払っている。本稿では,圧縮映像に含まれる知識を用いて,この問題を異なる視点から再考する。我々は、圧縮されたドメインからリソースを取り込み、TapLabと呼ばれるシンプルで効果的なフレームワークを提案する。具体的には,アクセラレーションのための運動ベクトルを用いた高速な特徴変形モジュールを設計する。動きベクトルによる雑音を低減するため,残差を用いた残差誘導補正モジュールと残差誘導フレーム選択モジュールを設計した。 TapLabは最先端の高速セマンティックイメージセグメンテーションモデルの冗長な計算を大幅に削減し,3倍から10倍の高速化を実現している。実験の結果、taplabは1024x2048ビデオの1つのgpuカードで、cityscapesデータセット上で70.6%のmiouを達成した。高速版は160FPS以上の速度にまで達する。コードは近々https://github.com/Sixkplus/TapLab.comで公開される。

関連論文リスト

GSVR: 2D Gaussian-based Video Representation for 800+ FPS with Hybrid Deformation Field [7.977026024810772]
ビデオの暗黙の神経表現は、新しくて有望なビデオ表現として認識されている。本稿では,新しい2次元ガウス映像表現であるGSVRを提案し,Bunny上で800FPS以上,35PSNR以上を達成している。本手法は既存の手法よりもはるかに高速に収束し,他の手法に比べて10倍高速に復号できる。
論文参考訳（メタデータ） (2025-07-08T02:13:12Z)
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes [85.00111442236499]
本稿では,非時間密度の動画をGumbel Softmax を用いて様々な立方体に分割する新しい知覚パラダイムを持つ LMM である textbfQuicksviewer を提案する。言語バックボーンから3段階のプログレッシブステージを通じてモデルをトレーニングし、それぞれが知覚効率によって平均420s/1fpsの長大なビデオを組み込む。トレーニング用ビデオテキストサンプルは0.8Mに過ぎず, 精度が最大8.72倍に向上した。
論文参考訳（メタデータ） (2025-04-21T17:57:21Z)
ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3～5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文参考訳（メタデータ） (2024-12-29T15:42:24Z)
VidTwin: Video VAE with Decoupled Structure and Dynamics [24.51768013474122]
VidTwinはコンパクトなビデオオートエンコーダで、ビデオを2つの異なる遅延空間に分離する。構造潜時ベクトルは全体内容とグローバルな動きを捉え、ダイナミクス潜時ベクトルは微細な詳細と高速な動きを表す。実験により、VidTwinは高い圧縮率で高い復元品質で0.20%を達成することが示された。
論文参考訳（メタデータ） (2024-12-23T17:16:58Z)
QUEEN: QUantized Efficient ENcoding of Dynamic Gaussians for Streaming Free-viewpoint Videos [42.554100586090826]
オンライン無料視点ビデオ(FVV)ストリーミングは、比較的未調査の課題である。本稿では,3次元ガウス演算を用いたFVVストリーミングのためのQUantized and Efficient ENcodingのための新しいフレームワークを提案する。さらに,ガウス位置以外の残差を効果的に定量化するための学習された潜在復号器を含む量子化スパーリティフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-05T18:59:55Z)
REDUCIO! Generating 1024$\times$1024 Video within 16 Seconds using Extremely Compressed Motion Latents [110.41795676048835]
大規模アプリケーションにとって重要な障害のひとつは、高価なトレーニングと推論コストである。本稿では,ビデオには画像よりもはるかに冗長な情報が含まれており,非常に少ない動きの潜伏者によってエンコード可能であることを論じる。我々は、合計3.2Kのトレーニング時間でReduceio-DiTをトレーニングし、1つのA100 GPUで15.5秒以内に16フレームの1024*1024ビデオクリップを生成する。
論文参考訳（メタデータ） (2024-11-20T18:59:52Z)
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models [51.712700398020075]
本研究では,空間的セマンティクスと長時間の時間的コンテキストを協調的にキャプチャできる学習自由ビデオ大言語モデル(LLM)を提案する。これは、ビデオLLMの入力の2ストリームSlowFast設計を用いて、サンプルフレームの特徴を効果的に集約することで実現される。実験の結果, SF-LLaVAは, 既存のトレーニング不要の手法よりも広い範囲の映像タスクにおいて優れていた。
論文参考訳（メタデータ） (2024-07-22T17:58:04Z)
No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding [38.60950616529459]
我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
論文参考訳（メタデータ） (2024-05-14T06:32:40Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Compressed Vision for Efficient Video Understanding [83.97689018324732]
本稿では,2時間ビデオの処理が可能なハードウェアを用いて,時間長動画の研究を可能にするフレームワークを提案する。私たちは、JPEGなどの標準的なビデオ圧縮をニューラル圧縮に置き換え、圧縮されたビデオを通常のビデオネットワークへの入力として直接フィードできることを示します。
論文参考訳（メタデータ） (2022-10-06T15:35:49Z)
Fast-Vid2Vid: Spatial-Temporal Compression for Video-to-Video Synthesis [40.249030338644225]
映像合成 (Vid2Vid) は, セマンティックマップのシーケンスから写真リアルな映像を生成することで, 顕著な成果を上げている。 Fast-Vid2Vidは20 FPSのリアルタイムパフォーマンスを実現し、1つのV100 GPUで約8倍の計算コストを節約する。
論文参考訳（メタデータ） (2022-07-11T17:57:57Z)
Efficient Video Object Segmentation with Compressed Video [36.192735485675286]
ビデオの時間的冗長性を利用した半教師付きビデオオブジェクトセグメンテーションのための効率的なフレームワークを提案する。提案手法は,圧縮したビデオビットストリームの動作と残差に基づいて,選択したベクトルの推測を行い,他のフレームの予測を行う。ベースモデルとしてトップkフィルタリングを用いたSTMでは,DAVIS16とYouTube-VOSにおいて,精度の低下とともに最大4.9倍の高速化を実現した。
論文参考訳（メタデータ） (2021-07-26T12:57:04Z)
FastRIFE: Optimization of Real-Time Intermediate Flow Estimation for Video Frame Interpolation [0.0]
本稿では,RIFE(Real-Time Intermediate Flow Estimation)モデルの高速化を目的としたFastRIFEアルゴリズムを提案する。すべてのソースコードはhttps://gitlab.com/malwinq/interpolation-of-images-for-slow-motion-videosで公開されている。
論文参考訳（メタデータ） (2021-05-27T22:31:40Z)
Efficient Video Semantic Segmentation with Labels Propagation and Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。 i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文参考訳（メタデータ） (2019-12-26T11:45:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。