論文の概要: Semantically Video Coding: Instill Static-Dynamic Clues into Structured
Bitstream for AI Tasks
- arxiv url: http://arxiv.org/abs/2201.10162v1
- Date: Tue, 25 Jan 2022 08:06:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 03:43:38.579473
- Title: Semantically Video Coding: Instill Static-Dynamic Clues into Structured
Bitstream for AI Tasks
- Title(参考訳): セマンティックビデオ符号化:AIタスクのための構造化ビットストリームに静的動的キューを組み込む
- Authors: Xin Jin, Ruoyu Feng, Simeng Sun, Runsen Feng, Tianyu He, Zhibo Chen
- Abstract要約: 従来のメディア符号化方式では、画像/映像をセマンティックな未知のバイナリストリームにエンコードするが、ビットストリームレベルで下流のインテリジェントなタスクを直接サポートできない。
連続運動情報を符号化し、予測符号化アーキテクチャを用いてフレーム間の冗長性を低減するための光フローを導入する。
- 参考スコア(独自算出の注目度): 34.74564802661039
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Traditional media coding schemes typically encode image/video into a
semantic-unknown binary stream, which fails to directly support downstream
intelligent tasks at the bitstream level. Semantically Structured Image Coding
(SSIC) framework makes the first attempt to enable decoding-free or
partial-decoding image intelligent task analysis via a Semantically Structured
Bitstream (SSB). However, the SSIC only considers image coding and its
generated SSB only contains the static object information. In this paper, we
extend the idea of semantically structured coding from video coding perspective
and propose an advanced Semantically Structured Video Coding (SSVC) framework
to support heterogeneous intelligent applications. Video signals contain more
rich dynamic motion information and exist more redundancy due to the similarity
between adjacent frames. Thus, we present a reformulation of semantically
structured bitstream (SSB) in SSVC which contains both static object
characteristics and dynamic motion clues. Specifically, we introduce optical
flow to encode continuous motion information and reduce cross-frame redundancy
via a predictive coding architecture, then the optical flow and residual
information are reorganized into SSB, which enables the proposed SSVC could
better adaptively support video-based downstream intelligent applications.
Extensive experiments demonstrate that the proposed SSVC framework could
directly support multiple intelligent tasks just depending on a partially
decoded bitstream. This avoids the full bitstream decompression and thus
significantly saves bitrate/bandwidth consumption for intelligent analytics. We
verify this point on the tasks of image object detection, pose estimation,
video action recognition, video object segmentation, etc.
- Abstract(参考訳): 従来のメディア符号化方式では、イメージ/動画を意味不明なバイナリストリームにエンコードするが、ビットストリームレベルで下流のインテリジェントタスクを直接サポートできない。
Semantically Structured Image Coding (SSIC)フレームワークは、Semantically Structured Bitstream (SSB)を介して、デコードフリーまたは部分デコードイメージのインテリジェントなタスク分析を可能にする最初の試みである。
しかし、SSICは画像符号化のみを考慮し、生成したSSBは静的オブジェクト情報のみを含む。
本稿では,映像符号化の観点から意味論的構造化コーディングの考え方を拡張し,異種知的アプリケーションをサポートするためのssvc(semantically structured video coding)フレームワークを提案する。
映像信号はよりリッチなダイナミックモーション情報を含み、隣接するフレーム間の類似性により冗長性が高い。
そこで我々は,静的な物体特性と動的動きの手がかりの両方を含む意味的構造化ビットストリーム(SSB)をSSVCに再構成する。
具体的には,連続動作情報をエンコードするオプティカルフローを導入し,予測符号化アーキテクチャによるフレーム間冗長性を低減し,その後,光学フローと残余情報をssbに再構成し,提案するssvcがビデオベースの下流知的アプリケーションをより適応的にサポートできるようにする。
広範な実験により、提案されたSSVCフレームワークは、部分的にデコードされたビットストリームに依存するだけで、複数のインテリジェントタスクを直接サポートできることが示された。
これにより、完全なビットストリーム圧縮が回避され、インテリジェント分析のためのビットレート/帯域消費が大幅に削減される。
本稿では,画像物体検出,ポーズ推定,映像動作認識,映像物体分割などのタスクについて,この点を検証する。
関連論文リスト
- DynFocus: Dynamic Cooperative Network Empowers LLMs with Video Understanding [18.312501339046296]
我々は,繰り返しフレームと応答不関連フレームの両方で冗長が生じ,対応するフレームは異なる質問によって異なることを観察する。
このことは、詳細なビデオ情報保存とトークン予算削減のバランスをとるためにダイナミックエンコーディングを採用する可能性を示唆している。
論文 参考訳(メタデータ) (2024-11-19T09:16:54Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - DS-NeRV: Implicit Neural Video Representation with Decomposed Static and Dynamic Codes [13.740702407525475]
本稿では,ビデオから学習可能な静的コードと動的コードに分解するDS-NeRVを提案する。
静的および動的コード表現の分離により,パラメータが 0.35M である 31.2 PSNR の高品質な再構成を実現する。
論文 参考訳(メタデータ) (2024-03-23T02:09:23Z) - Hierarchical Graph Pattern Understanding for Zero-Shot VOS [102.21052200245457]
本稿では、ゼロショットビデオオブジェクトセグメンテーション(ZS-VOS)のための新しい階層型グラフニューラルネットワーク(GNN)アーキテクチャを提案する。
構造的関係を捕捉するGNNの強い能力にインスパイアされたHGPUは、運動キュー(すなわち光の流れ)を革新的に活用し、ターゲットフレームの隣人からの高次表現を強化する。
論文 参考訳(メタデータ) (2023-12-15T04:13:21Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Streaming Video Model [90.24390609039335]
本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
論文 参考訳(メタデータ) (2023-03-30T08:51:49Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。