論文の概要: Deep Learning-based Compressed Domain Multimedia for Man and Machine: A
Taxonomy and Application to Point Cloud Classification
- arxiv url: http://arxiv.org/abs/2310.18849v2
- Date: Fri, 17 Nov 2023 15:53:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:09:31.353540
- Title: Deep Learning-based Compressed Domain Multimedia for Man and Machine: A
Taxonomy and Application to Point Cloud Classification
- Title(参考訳): 深層学習に基づく人間と機械のための圧縮ドメインマルチメディア:分類とポイントクラウド分類への応用
- Authors: Abdelrahman Seleem (1, 2, 4), Andr\'e F. R. Guarda (2), Nuno M. M.
Rodrigues (2, 3), Fernando Pereira (1, 2) ((1) Instituto Superior T\'ecnico -
Universidade de Lisboa, Lisbon, Portugal, (2) Instituto de
Telecomunica\c{c}\~oes, Portugal, (3) ESTG, Polit\'ecnico de Leiria, Leiria,
Portugal, (4) Faculty of Computers and Information, South Valley University,
Qena, Egypt)
- Abstract要約: 本稿では,圧縮されたドメイン・コンピュータ・ビジョン・ソリューションを設計するための最初の分類法を提案する。
提案された分類のポテンシャルは、ポイントクラウド分類の特定のケースで示される。
- 参考スコア(独自算出の注目度): 27.071264214506108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current golden age of multimedia, human visualization is no longer the
single main target, with the final consumer often being a machine which
performs some processing or computer vision tasks. In both cases, deep learning
plays a undamental role in extracting features from the multimedia
representation data, usually producing a compressed representation referred to
as latent representation. The increasing development and adoption of deep
learning-based solutions in a wide area of multimedia applications have opened
an exciting new vision where a common compressed multimedia representation is
used for both man and machine. The main benefits of this vision are two-fold:
i) improved performance for the computer vision tasks, since the effects of
coding artifacts are mitigated; and ii) reduced computational complexity, since
prior decoding is not required. This paper proposes the first taxonomy for
designing compressed domain computer vision solutions driven by the
architecture and weights compatibility with an available spatio-temporal
computer vision processor. The potential of the proposed taxonomy is
demonstrated for the specific case of point cloud classification by designing
novel compressed domain processors using the JPEG Pleno Point Cloud Coding
standard under development and adaptations of the PointGrid classifier.
Experimental results show that the designed compressed domain point cloud
classification solutions can significantly outperform the spatial-temporal
domain classification benchmarks when applied to the decompressed data,
containing coding artifacts, and even surpass their performance when applied to
the original uncompressed data.
- Abstract(参考訳): 現在のマルチメディアの黄金時代において、人間の可視化はもはや唯一のターゲットではなく、最終的な消費者はしばしば処理やコンピュータビジョンタスクを実行する機械である。
いずれの場合も、ディープラーニングはマルチメディア表現データから特徴を抽出するのに役立ち、通常は潜在表現と呼ばれる圧縮表現を生成する。
幅広いマルチメディアアプリケーションにおけるディープラーニングベースのソリューションの開発と導入の増加により、人間と機械の両方に共通の圧縮マルチメディア表現が使用される、エキサイティングな新しいビジョンが開かれた。
このビジョンの主な利点は2つあります。
一 符号化工芸品の効果を緩和するため、コンピュータビジョンのタスクの性能を向上させること。
二 事前復号が不要であるため、計算複雑性の低減。
本稿では,圧縮ドメイン型コンピュータビジョンソリューションの設計のための最初の分類法を提案し,時空間型コンピュータビジョンプロセッサのアーキテクチャと重み付け互換性について述べる。
JPEG Pleno Point Cloud Coding標準を用いて新しい圧縮ドメインプロセッサを設計し、PointGrid分類器の開発と適応を行うことにより、ポイントクラウド分類の特定事例に対して、提案手法の可能性を示す。
実験結果から, 圧縮された領域点クラウド分類ソリューションは, 圧縮されたデータに適用した場合の時空間領域分類ベンチマークを著しく上回り, 圧縮されていないデータに適用した場合の処理性能を上回り得ることがわかった。
関連論文リスト
- Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer [52.40992954884257]
3D視覚化技術は、私たちがデジタルコンテンツと対話する方法を根本的に変えてきた。
ポイントクラウドの大規模データサイズは、データ圧縮において大きな課題を呈している。
そこで我々はPCACと差別化可能なレンダリングをシームレスに統合するエンドツーエンドのディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T16:12:51Z) - Learned Compression for Images and Point Clouds [1.7404865362620803]
この論文は、この新しい学習圧縮分野への3つの主要な貢献を提供する。
まず、符号化分布自体を側情報として圧縮送信することで、符号化分布を特定の入力に動的に適応する効率的な低複雑さエントロピーモデルを提案する。
第2に,非特殊化コーデックに比べて著しく低減された,分類に高度に特化している軽量低複雑点雲を提案する。
論文 参考訳(メタデータ) (2024-09-12T19:57:44Z) - The JPEG Pleno Learning-based Point Cloud Coding Standard: Serving Man and Machine [49.16996486119006]
ディープラーニングは、ポイントクラウドコーディングの強力なツールとして登場した。
JPEGは先日、JPEG Pleno LearningベースのPoint Cloud Coding標準を確定した。
本稿ではJPEG PCC標準の完全な技術的記述を提供する。
論文 参考訳(メタデータ) (2024-09-12T15:20:23Z) - Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.38606213726906]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。
本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。
初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文 参考訳(メタデータ) (2024-08-15T16:41:55Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - DNN-Compressed Domain Visual Recognition with Feature Adaptation [19.79803434998116]
学習に基づく画像圧縮は、最先端の変換ベースのコーデックと競合する性能を発揮することが示されている。
これはJPEG-AIのような新しい学習ベースのビジュアル圧縮標準の開発を動機づけた。
本稿では,圧縮領域表現を用いて,圧縮領域内で直接視覚処理やコンピュータビジョンタスクを行う学習ベース圧縮方式について述べる。
論文 参考訳(メタデータ) (2023-05-13T20:45:17Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。