Fugu-MT 論文翻訳(概要): Deep Learning-based Compressed Domain Multimedia for Man and Machine: A Taxonomy and Application to Point Cloud Classification

論文の概要: Deep Learning-based Compressed Domain Multimedia for Man and Machine: A Taxonomy and Application to Point Cloud Classification

arxiv url: http://arxiv.org/abs/2310.18849v1
Date: Sat, 28 Oct 2023 23:38:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-31 16:05:39.753294
Title: Deep Learning-based Compressed Domain Multimedia for Man and Machine: A Taxonomy and Application to Point Cloud Classification
Title（参考訳）: 深層学習に基づく人間と機械のための圧縮ドメインマルチメディア:分類とポイントクラウド分類への応用
Authors: Abdelrahman Seleem (1, 2, 4), Andr\'e F. R. Guarda (2), Nuno M. M. Rodrigues (2, 3), Fernando Pereira (1, 2) ((1) Instituto Superior T\'ecnico - Universidade de Lisboa, Lisbon, Portugal, (2) Instituto de Telecomunica\c{c}\~oes, Portugal, (3) ESTG, Polit\'ecnico de Leiria, Leiria, Portugal, (4) Faculty of Computers and Information, South Valley University, Qena, Egypt)
Abstract要約: 本稿では,圧縮されたドメイン・コンピュータ・ビジョン・ソリューションを設計するための最初の分類法を提案する。提案された分類のポテンシャルは、ポイントクラウド分類の特定のケースで示される。
参考スコア（独自算出の注目度）: 27.071264214506108
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the current golden age of multimedia, human visualization is no longer the single main target, with the final consumer often being a machine which performs some processing or computer vision tasks. In both cases, deep learning plays a undamental role in extracting features from the multimedia representation data, usually producing a compressed representation referred to as latent representation. The increasing development and adoption of deep learning-based solutions in a wide area of multimedia applications have opened an exciting new vision where a common compressed multimedia representation is used for both man and machine. The main benefits of this vision are two-fold: i) improved performance for the computer vision tasks, since the effects of coding artifacts are mitigated; and ii) reduced computational complexity, since prior decoding is not required. This paper proposes the first taxonomy for designing compressed domain computer vision solutions driven by the architecture and weights compatibility with an available spatio-temporal computer vision processor. The potential of the proposed taxonomy is demonstrated for the specific case of point cloud classification by designing novel compressed domain processors using the JPEG Pleno Point Cloud Coding standard under development and adaptations of the PointGrid classifier. Experimental results show that the designed compressed domain point cloud classification solutions can significantly outperform the spatial-temporal domain classification benchmarks when applied to the decompressed data, containing coding artifacts, and even surpass their performance when applied to the original uncompressed data.
Abstract（参考訳）: 現在のマルチメディアの黄金時代において、人間の可視化はもはや唯一のターゲットではなく、最終的な消費者はしばしば処理やコンピュータビジョンタスクを実行する機械である。いずれの場合も、ディープラーニングはマルチメディア表現データから特徴を抽出するのに役立ち、通常は潜在表現と呼ばれる圧縮表現を生成する。幅広いマルチメディアアプリケーションにおけるディープラーニングベースのソリューションの開発と導入の増加により、人間と機械の両方に共通の圧縮マルチメディア表現が使用される、エキサイティングな新しいビジョンが開かれた。このビジョンの主な利点は2つあります。一符号化工芸品の効果を緩和するため、コンピュータビジョンのタスクの性能を向上させること。二事前復号が不要であるため、計算複雑性の低減。本稿では,圧縮ドメイン型コンピュータビジョンソリューションの設計のための最初の分類法を提案し,時空間型コンピュータビジョンプロセッサのアーキテクチャと重み付け互換性について述べる。 JPEG Pleno Point Cloud Coding標準を用いて新しい圧縮ドメインプロセッサを設計し、PointGrid分類器の開発と適応を行うことにより、ポイントクラウド分類の特定事例に対して、提案手法の可能性を示す。実験結果から, 圧縮された領域点クラウド分類ソリューションは, 圧縮されたデータに適用した場合の時空間領域分類ベンチマークを著しく上回り, 圧縮されていないデータに適用した場合の処理性能を上回り得ることがわかった。

関連論文リスト

CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks [4.608162684700302]
下流視覚タスクに最適化された圧縮手法の実装と評価には,統合されたプラットフォームが必要である。 CompressAI-Visionは、視覚ネットワークの入力を効率的に圧縮するために、新しいコーディングツールが競合する総合的な評価プラットフォームとして導入された。この評価プラットフォームはオープンソースソフトウェアとして開発され、Moving Pictures Experts Groupによって採用されている。
論文参考訳（メタデータ） (2025-09-25T06:01:55Z)
Rendering-Oriented 3D Point Cloud Attribute Compression using Sparse Tensor-based Transformer [52.40992954884257]
3D視覚化技術は、私たちがデジタルコンテンツと対話する方法を根本的に変えてきた。ポイントクラウドの大規模データサイズは、データ圧縮において大きな課題を呈している。そこで我々はPCACと差別化可能なレンダリングをシームレスに統合するエンドツーエンドのディープラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-12T16:12:51Z)
Learned Compression for Images and Point Clouds [1.7404865362620803]
この論文は、この新しい学習圧縮分野への3つの主要な貢献を提供する。まず、符号化分布自体を側情報として圧縮送信することで、符号化分布を特定の入力に動的に適応する効率的な低複雑さエントロピーモデルを提案する。第2に,非特殊化コーデックに比べて著しく低減された,分類に高度に特化している軽量低複雑点雲を提案する。
論文参考訳（メタデータ） (2024-09-12T19:57:44Z)
The JPEG Pleno Learning-based Point Cloud Coding Standard: Serving Man and Machine [49.16996486119006]
ディープラーニングは、ポイントクラウドコーディングの強力なツールとして登場した。 JPEGは先日、JPEG Pleno LearningベースのPoint Cloud Coding標準を確定した。本稿ではJPEG PCC標準の完全な技術的記述を提供する。
論文参考訳（メタデータ） (2024-09-12T15:20:23Z)
Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.38606213726906]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文参考訳（メタデータ） (2024-08-15T16:41:55Z)
A Double Deep Learning-based Solution for Efficient Event Data Coding and Classification [45.8313373627054]
イベントカメラは、"イベント"と呼ばれる、画素ごとの非同期の明るさ変化をキャプチャする機能を持つ本稿では、イベントのポイントクラウドベースの表現を用いて、イベントデータ符号化と分類の両方のための新しいダブルディープラーニングベースのアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-07-22T10:45:55Z)
VNVC: A Versatile Neural Video Coding Framework for Efficient Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文参考訳（メタデータ） (2023-06-19T03:04:57Z)
DNN-Compressed Domain Visual Recognition with Feature Adaptation [19.79803434998116]
学習に基づく画像圧縮は、最先端の変換ベースのコーデックと競合する性能を発揮することが示されている。これはJPEG-AIのような新しい学習ベースのビジュアル圧縮標準の開発を動機づけた。本稿では,圧縮領域表現を用いて,圧縮領域内で直接視覚処理やコンピュータビジョンタスクを行う学習ベース圧縮方式について述べる。
論文参考訳（メタデータ） (2023-05-13T20:45:17Z)
Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。私たちのフレームワークは従来の非微分コーデックの上に構築されています。実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文参考訳（メタデータ） (2022-06-12T03:36:38Z)
Video Coding for Machine: Compact Visual Representation Compression for Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文参考訳（メタデータ） (2021-10-18T12:42:13Z)
Revisit Visual Representation in Analytics Taxonomy: A Compression Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文参考訳（メタデータ） (2021-06-16T01:44:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。