論文の概要: Human-Machine Collaborative Video Coding Through Cuboidal Partitioning
- arxiv url: http://arxiv.org/abs/2102.01307v1
- Date: Tue, 2 Feb 2021 04:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 06:05:55.161845
- Title: Human-Machine Collaborative Video Coding Through Cuboidal Partitioning
- Title(参考訳): cuboidal partitioningによるヒューマンマシン協調ビデオ符号化
- Authors: Ashek Ahmmed, Manoranjan Paul, Manzur Murshed, and David Taubman
- Abstract要約: 本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。
ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。
ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
- 参考スコア(独自算出の注目度): 26.70051123157869
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video coding algorithms encode and decode an entire video frame while feature
coding techniques only preserve and communicate the most critical information
needed for a given application. This is because video coding targets human
perception, while feature coding aims for machine vision tasks. Recently,
attempts are being made to bridge the gap between these two domains. In this
work, we propose a video coding framework by leveraging on to the commonality
that exists between human vision and machine vision applications using cuboids.
This is because cuboids, estimated rectangular regions over a video frame, are
computationally efficient, has a compact representation and object centric.
Such properties are already shown to add value to traditional video coding
systems. Herein cuboidal feature descriptors are extracted from the current
frame and then employed for accomplishing a machine vision task in the form of
object detection. Experimental results show that a trained classifier yields
superior average precision when equipped with cuboidal features oriented
representation of the current test frame. Additionally, this representation
costs 7% less in bit rate if the captured frames are need be communicated to a
receiver.
- Abstract(参考訳): ビデオコーディングアルゴリズムは、ビデオフレーム全体をエンコードしてデコードしますが、機能コーディング技術は、特定のアプリケーションに必要な最も重要な情報を保存および伝達するだけです。
これは、ビデオコーディングが人間の知覚をターゲットとし、機能コーディングがマシンビジョンタスクをターゲットとするからです。
近年,これら2つの領域間のギャップを埋める試みが行われている。
本研究では,人間の視覚とcuboidsを用いた機械ビジョンアプリケーションとの共通性を利用して,映像符号化フレームワークを提案する。
これは、ビデオフレーム上の長方形領域の推定が計算効率が高く、コンパクトな表現とオブジェクト中心を持つためである。
このような特性は、従来のビデオコーディングシステムに付加価値をもたらすことがすでに示されています。
ここで、現在のフレームからcuboidal feature descriptorを抽出し、オブジェクト検出の形でマシンビジョンタスクを達成するために使用する。
実験結果から, 現在のテストフレームの立方形特徴指向表現を備えた場合, 訓練された分類器は, より優れた平均精度が得られることがわかった。
さらに、この表現は、キャプチャされたフレームを受信機に通信する必要がある場合、ビットレートを7%削減する。
関連論文リスト
- High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Saliency-Driven Versatile Video Coding for Neural Object Detection [7.367608892486084]
本稿では,最新のビデオ符号化標準であるVersatile Video Coding (VVC) を用いた,機械作業用ビデオ符号化のためのサリエンシ駆動コーディングフレームワークを提案する。
符号化に先立って有能な領域を決定するために, リアルタイムのオブジェクト検出ネットワークであるYou Only Look Once(YOLO)と, 新たな判定基準を併用した。
基準VVCを一定の品質で比較すると,提案手法を適用することで,デコーダ側と同じ検出で最大29%の精度を節約できることがわかった。
論文 参考訳(メタデータ) (2022-03-11T14:27:43Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。