Fugu-MT 論文翻訳(概要): Human-Machine Collaborative Video Coding Through Cuboidal Partitioning

論文の概要: Human-Machine Collaborative Video Coding Through Cuboidal Partitioning

arxiv url: http://arxiv.org/abs/2102.01307v1
Date: Tue, 2 Feb 2021 04:44:45 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-05 06:05:55.161845
Title: Human-Machine Collaborative Video Coding Through Cuboidal Partitioning
Title（参考訳）: cuboidal partitioningによるヒューマンマシン協調ビデオ符号化
Authors: Ashek Ahmmed, Manoranjan Paul, Manzur Murshed, and David Taubman
Abstract要約: 本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
参考スコア（独自算出の注目度）: 26.70051123157869
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Video coding algorithms encode and decode an entire video frame while feature coding techniques only preserve and communicate the most critical information needed for a given application. This is because video coding targets human perception, while feature coding aims for machine vision tasks. Recently, attempts are being made to bridge the gap between these two domains. In this work, we propose a video coding framework by leveraging on to the commonality that exists between human vision and machine vision applications using cuboids. This is because cuboids, estimated rectangular regions over a video frame, are computationally efficient, has a compact representation and object centric. Such properties are already shown to add value to traditional video coding systems. Herein cuboidal feature descriptors are extracted from the current frame and then employed for accomplishing a machine vision task in the form of object detection. Experimental results show that a trained classifier yields superior average precision when equipped with cuboidal features oriented representation of the current test frame. Additionally, this representation costs 7% less in bit rate if the captured frames are need be communicated to a receiver.
Abstract（参考訳）: ビデオコーディングアルゴリズムは、ビデオフレーム全体をエンコードしてデコードしますが、機能コーディング技術は、特定のアプリケーションに必要な最も重要な情報を保存および伝達するだけです。これは、ビデオコーディングが人間の知覚をターゲットとし、機能コーディングがマシンビジョンタスクをターゲットとするからです。近年,これら2つの領域間のギャップを埋める試みが行われている。本研究では,人間の視覚とcuboidsを用いた機械ビジョンアプリケーションとの共通性を利用して,映像符号化フレームワークを提案する。これは、ビデオフレーム上の長方形領域の推定が計算効率が高く、コンパクトな表現とオブジェクト中心を持つためである。このような特性は、従来のビデオコーディングシステムに付加価値をもたらすことがすでに示されています。ここで、現在のフレームからcuboidal feature descriptorを抽出し、オブジェクト検出の形でマシンビジョンタスクを達成するために使用する。実験結果から, 現在のテストフレームの立方形特徴指向表現を備えた場合, 訓練された分類器は, より優れた平均精度が得られることがわかった。さらに、この表現は、キャプチャされたフレームを受信機に通信する必要がある場合、ビットレートを7%削減する。

関連論文リスト

FRAME: Pre-Training Video Feature Representations via Anticipation and Memory [55.046881477209695]
FRAMEは、高密度ビデオ理解に適した自己監督型ビデオフレームエンコーダである。同社は、過去と現在のRGBフレームから現在と将来のDINOパッチ機能を予測することを学ぶ。画像エンコーダや既存の自己監督型ビデオモデルよりも一貫して優れています。
論文参考訳（メタデータ） (2025-06-05T19:44:47Z)
High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文参考訳（メタデータ） (2024-10-03T15:40:58Z)
Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文参考訳（メタデータ） (2024-02-20T01:43:51Z)
VNVC: A Versatile Neural Video Coding Framework for Efficient Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T03:04:57Z)
Saliency-Driven Versatile Video Coding for Neural Object Detection [7.367608892486084]
本稿では,最新のビデオ符号化標準であるVersatile Video Coding (VVC) を用いた,機械作業用ビデオ符号化のためのサリエンシ駆動コーディングフレームワークを提案する。符号化に先立って有能な領域を決定するために, リアルタイムのオブジェクト検出ネットワークであるYou Only Look Once(YOLO)と, 新たな判定基準を併用した。基準VVCを一定の品質で比較すると,提案手法を適用することで,デコーダ側と同じ検出で最大29%の精度を節約できることがわかった。
論文参考訳（メタデータ） (2022-03-11T14:27:43Z)
A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。 8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文参考訳（メタデータ） (2022-02-06T16:29:15Z)
Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文参考訳（メタデータ） (2021-03-31T17:56:13Z)
An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文参考訳（メタデータ） (2020-01-09T14:18:18Z)
Towards Coding for Human and Machine Vision: A Scalable Image Coding Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文参考訳（メタデータ） (2020-01-09T10:37:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。