論文の概要: Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach
- arxiv url: http://arxiv.org/abs/2001.02915v2
- Date: Fri, 10 Jan 2020 03:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 04:56:28.892485
- Title: Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach
- Title(参考訳): 人間と機械ビジョンのための符号化:スケーラブルな画像符号化アプローチ
- Authors: Yueyu Hu, Shuai Yang, Wenhan Yang, Ling-Yu Duan, Jiaying Liu
- Abstract要約: 圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
- 参考スコア(独自算出の注目度): 104.02201472370801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past decades have witnessed the rapid development of image and video
coding techniques in the era of big data. However, the signal fidelity-driven
coding pipeline design limits the capability of the existing image/video coding
frameworks to fulfill the needs of both machine and human vision. In this
paper, we come up with a novel image coding framework by leveraging both the
compressive and the generative models, to support machine vision and human
perception tasks jointly. Given an input image, the feature analysis is first
applied, and then the generative model is employed to perform image
reconstruction with features and additional reference pixels, in which compact
edge maps are extracted in this work to connect both kinds of vision in a
scalable way. The compact edge map serves as the basic layer for machine vision
tasks, and the reference pixels act as a sort of enhanced layer to guarantee
signal fidelity for human vision. By introducing advanced generative models, we
train a flexible network to reconstruct images from compact feature
representations and the reference pixels. Experimental results demonstrate the
superiority of our framework in both human visual quality and facial landmark
detection, which provide useful evidence on the emerging standardization
efforts on MPEG VCM (Video Coding for Machine).
- Abstract(参考訳): 過去数十年間、ビッグデータ時代における画像とビデオのコーディング技術の急速な発展を目撃してきた。
しかし、信号フィデリティ駆動のコーディングパイプライン設計は、既存の画像/ビデオコーディングフレームワークがマシンと人間の両方のビジョンのニーズを満たす能力を制限する。
本稿では,機械ビジョンと人間の知覚タスクを協調的に支援するために,圧縮モデルと生成モデルの両方を活用する新しい画像符号化フレームワークを提案する。
入力画像が与えられた後、まず特徴解析を適用し、次に生成モデルを用いて特徴と追加の参照画素による画像再構成を行い、この作業でコンパクトなエッジマップを抽出して両視覚をスケーラブルに接続する。
コンパクトエッジマップは機械ビジョンタスクの基本層として機能し、参照画素は人間の視覚に対する信号忠実性を保証するための拡張層として機能する。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験の結果,人間の視覚的品質と顔のランドマーク検出の両方において,我々の枠組みが優れていることが示され,MPEG VCM(Video Coding for Machine)の標準化努力の新たな証拠となる。
関連論文リスト
- VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Multi-Scale Vision Longformer: A New Vision Transformer for
High-Resolution Image Encoding [81.07894629034767]
本稿では,新しいViTアーキテクチャであるMulti-Scale Vision Longformerを提案する。
これは、2つの技術を用いて高解像度画像をエンコードするためのquotionosovitskiy 2020 imageのvitを大幅に強化する。
論文 参考訳(メタデータ) (2021-03-29T06:23:20Z) - Human-Machine Collaborative Video Coding Through Cuboidal Partitioning [26.70051123157869]
本稿では,人間の視覚と,キュービドを用いたマシンビジョンアプリケーションの間に存在する共通性を活用することによって,映像符号化フレームワークを提案する。
ビデオフレーム上の矩形領域を推定する立方体は、計算的に効率的であり、コンパクトな表現とオブジェクト中心である。
ここでは、現在のフレームから立方体特徴記述子を抽出し、オブジェクト検出の形式で機械ビジョンタスクを達成するために使用される。
論文 参考訳(メタデータ) (2021-02-02T04:44:45Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。