論文の概要: Video Coding for Machines: Partial transmission of SIFT features
- arxiv url: http://arxiv.org/abs/2201.02689v1
- Date: Fri, 7 Jan 2022 22:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 17:30:49.081756
- Title: Video Coding for Machines: Partial transmission of SIFT features
- Title(参考訳): 機械用ビデオ符号化:SIFT特徴の部分伝送
- Authors: S{\l}awomir Ma\'ckowiak, Marek Doma\'nski, S{\l}awomir R\'o\.zek,
Dominik Cywi\'nski, Jakub Szkie{\l}da
- Abstract要約: この論文は、人間や機械によるデコードビデオの消費に関連するビデオ符号化の新しいパラダイムであるビデオ符号化を扱う。
本稿ではSIFTキーポイントに注目する。
これらは、元のビデオから抽出されたSIFTキーポイントと比較して、キーポイントの数とパラメータを損失した復号ビデオから抽出することができる。
- 参考スコア(独自算出の注目度): 0.24499092754102875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper deals with Video Coding for Machines that is a new paradigm in
video coding related to consumption of decoded video by humans and machines.
For such tasks, joint transmission of compressed video and features is
considered. In this paper, we focus our considerations of features on SIFT
keypoints. They can be extracted from the decoded video with losses in number
of keypoints and their parameters as compared to the SIFT keypoints extracted
from the original video. Such losses are studied for HEVC and VVC as functions
of the quantization parameter and the bitrate. In the paper, we propose to
transmit the residual feature data together with the compressed video.
Therefore, even for strongly compressed video, the transmission of whole all
SIFT keypoint information is avoided.
- Abstract(参考訳): この論文は、人間や機械によるデコードビデオの消費に関連するビデオコーディングの新しいパラダイムである、ビデオ符号化 for Machinesを扱う。
このようなタスクでは,圧縮映像と特徴の同時伝送が検討されている。
本稿では,siftキーポイントの特徴について考察する。
復号されたビデオから、元のビデオから抽出したSIFTキーポイントと比較して、キーポイント数とそのパラメータが失われる。
このような損失は、量子化パラメータとビットレートの関数としてHEVCとVVCに対して研究される。
本稿では,圧縮映像と共に残差特徴データを送信することを提案する。
したがって、強く圧縮されたビデオであっても全SIFTキーポイント情報の送信は避けられる。
関連論文リスト
- WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model [15.171544722138806]
ビデオ変分オートエンコーダ(VAE)は、ビデオを低次元の潜在空間にエンコードする。
VAEは、ほとんどの遅延ビデオ拡散モデル(LVDM)のキーコンポーネントである
論文 参考訳(メタデータ) (2024-11-26T14:23:53Z) - EVC-MF: End-to-end Video Captioning Network with Multi-scale Features [13.85795110061781]
本稿では,ビデオキャプションのためのエンド・ツー・エンドエンコーダ・デコーダ・ネットワーク(EVC-MF)を提案する。
マルチスケールの視覚的特徴とテキスト的特徴を効果的に利用し、ビデオ記述を生成する。
その結果,EVC-MFは最先端技術に比べて競争性能が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-22T02:16:02Z) - Streaming Long Video Understanding with Large Language Models [83.11094441893435]
VideoStreamingは、ビデオ理解のための高度な視覚言語大モデル(VLLM)である。
一定の数のビデオストリーミングトークンを符号化し、伝播的に選択した任意の長さのビデオを理解することができる。
提案モデルは,長大なビデオベンチマークにおいて,優れた性能と高効率を実現する。
論文 参考訳(メタデータ) (2024-05-25T02:22:09Z) - NU-Class Net: A Novel Approach for Video Quality Enhancement [1.7763979745248648]
本稿では,圧縮コーデックによる圧縮アーチファクトの軽減を目的とした,革新的な深層学習モデルであるNU-Class Netを紹介する。
NU-Class Netを利用することで、ビデオキャプチャノード内のビデオエンコーダは出力品質を低下させ、低ビットレートのビデオを生成することができる。
実験により,低ビットレートでストリーミングされたビデオの知覚品質を高めるためのモデルの有効性が確認された。
論文 参考訳(メタデータ) (2024-01-02T11:46:42Z) - Deep Learning-Based Real-Time Quality Control of Standard Video
Compression for Live Streaming [31.285983939625098]
リアルタイム深層学習に基づくH.264コントローラを提案する。
最小遅延でビデオチャンクの内容に基づいて最適なエンコーダパラメータを推定する。
平均帯域使用量の最大2.5倍の改善を実現している。
論文 参考訳(メタデータ) (2023-11-21T18:28:35Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Video Compression with Arbitrary Rescaling Network [8.489428003916622]
符号化前のビデオリサイズのためのレート誘導任意再スケーリングネットワーク(RARN)を提案する。
軽量RARN構造は、FHD(1080p)コンテンツをリアルタイム(91 FPS)で処理し、かなりのレート低下を得ることができる。
論文 参考訳(メタデータ) (2023-06-07T07:15:18Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Transcoded Video Restoration by Temporal Spatial Auxiliary Network [64.63157339057912]
本稿では,映像復元のための時間空間補助ネットワーク(TSAN)を提案する。
実験の結果,提案手法の性能は従来の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-15T08:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。