論文の概要: Deep Learning-based Compressed Domain Multimedia for Man and Machine: A
Taxonomy and Application to Point Cloud Classification
- arxiv url: http://arxiv.org/abs/2310.18849v1
- Date: Sat, 28 Oct 2023 23:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 16:05:39.753294
- Title: Deep Learning-based Compressed Domain Multimedia for Man and Machine: A
Taxonomy and Application to Point Cloud Classification
- Title(参考訳): 深層学習に基づく人間と機械のための圧縮ドメインマルチメディア:分類とポイントクラウド分類への応用
- Authors: Abdelrahman Seleem (1, 2, 4), Andr\'e F. R. Guarda (2), Nuno M. M.
Rodrigues (2, 3), Fernando Pereira (1, 2) ((1) Instituto Superior T\'ecnico -
Universidade de Lisboa, Lisbon, Portugal, (2) Instituto de
Telecomunica\c{c}\~oes, Portugal, (3) ESTG, Polit\'ecnico de Leiria, Leiria,
Portugal, (4) Faculty of Computers and Information, South Valley University,
Qena, Egypt)
- Abstract要約: 本稿では,圧縮されたドメイン・コンピュータ・ビジョン・ソリューションを設計するための最初の分類法を提案する。
提案された分類のポテンシャルは、ポイントクラウド分類の特定のケースで示される。
- 参考スコア(独自算出の注目度): 27.071264214506108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the current golden age of multimedia, human visualization is no longer the
single main target, with the final consumer often being a machine which
performs some processing or computer vision tasks. In both cases, deep learning
plays a undamental role in extracting features from the multimedia
representation data, usually producing a compressed representation referred to
as latent representation. The increasing development and adoption of deep
learning-based solutions in a wide area of multimedia applications have opened
an exciting new vision where a common compressed multimedia representation is
used for both man and machine. The main benefits of this vision are two-fold:
i) improved performance for the computer vision tasks, since the effects of
coding artifacts are mitigated; and ii) reduced computational complexity, since
prior decoding is not required. This paper proposes the first taxonomy for
designing compressed domain computer vision solutions driven by the
architecture and weights compatibility with an available spatio-temporal
computer vision processor. The potential of the proposed taxonomy is
demonstrated for the specific case of point cloud classification by designing
novel compressed domain processors using the JPEG Pleno Point Cloud Coding
standard under development and adaptations of the PointGrid classifier.
Experimental results show that the designed compressed domain point cloud
classification solutions can significantly outperform the spatial-temporal
domain classification benchmarks when applied to the decompressed data,
containing coding artifacts, and even surpass their performance when applied to
the original uncompressed data.
- Abstract(参考訳): 現在のマルチメディアの黄金時代において、人間の可視化はもはや唯一のターゲットではなく、最終的な消費者はしばしば処理やコンピュータビジョンタスクを実行する機械である。
いずれの場合も、ディープラーニングはマルチメディア表現データから特徴を抽出するのに役立ち、通常は潜在表現と呼ばれる圧縮表現を生成する。
幅広いマルチメディアアプリケーションにおけるディープラーニングベースのソリューションの開発と導入の増加により、人間と機械の両方に共通の圧縮マルチメディア表現が使用される、エキサイティングな新しいビジョンが開かれた。
このビジョンの主な利点は2つあります。
一 符号化工芸品の効果を緩和するため、コンピュータビジョンのタスクの性能を向上させること。
二 事前復号が不要であるため、計算複雑性の低減。
本稿では,圧縮ドメイン型コンピュータビジョンソリューションの設計のための最初の分類法を提案し,時空間型コンピュータビジョンプロセッサのアーキテクチャと重み付け互換性について述べる。
JPEG Pleno Point Cloud Coding標準を用いて新しい圧縮ドメインプロセッサを設計し、PointGrid分類器の開発と適応を行うことにより、ポイントクラウド分類の特定事例に対して、提案手法の可能性を示す。
実験結果から, 圧縮された領域点クラウド分類ソリューションは, 圧縮されたデータに適用した場合の時空間領域分類ベンチマークを著しく上回り, 圧縮されていないデータに適用した場合の処理性能を上回り得ることがわかった。
関連論文リスト
- NiNformer: A Network in Network Transformer with Token Mixing Generated Gating Function [1.3812010983144802]
アテンションメカニズムはコンピュータビジョンでビジョントランスフォーマーViTとして利用され、その用途はビジョン領域の多くのタスクに拡張されている。
本稿では、通常のアテンション層をネットワーク内のネットワーク構造に置き換えることで、計算負担を軽減するための標準ViTブロックの代替として、新しい計算ブロックを提案する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Multi-spectral Class Center Network for Face Manipulation Detection and
Localization [54.89350610668392]
本稿では、ピクセルレベルのアノテーションを導入してFaceForensics++データセットを再構築し、改ざんした領域をローカライズするための広範なベンチマークを構築する。
次に,顔の操作検出と局所化のために,MSCCNet(Multi-Spectral Class Center Network)を提案する。
論文 参考訳(メタデータ) (2023-05-18T08:09:20Z) - DNN-Compressed Domain Visual Recognition with Feature Adaptation [19.79803434998116]
学習に基づく画像圧縮は、最先端の変換ベースのコーデックと競合する性能を発揮することが示されている。
これはJPEG-AIのような新しい学習ベースのビジュアル圧縮標準の開発を動機づけた。
本稿では,圧縮領域表現を用いて,圧縮領域内で直接視覚処理やコンピュータビジョンタスクを行う学習ベース圧縮方式について述べる。
論文 参考訳(メタデータ) (2023-05-13T20:45:17Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Learning-Driven Lossy Image Compression; A Comprehensive Survey [3.1761172592339375]
本稿では、機械学習(ML)アーキテクチャを用いて、画像圧縮の損失を主に生かした最近の技術について調査することを目的とする。
すべてのアルゴリズムをアーキテクチャに基づいて複数のグループに分けます。
研究者の様々な発見が強調され、研究者の今後の方向性が示唆されている。
論文 参考訳(メタデータ) (2022-01-23T12:11:31Z) - Video Coding for Machine: Compact Visual Representation Compression for
Intelligent Collaborative Analytics [101.35754364753409]
Video Coding for Machines (VCM) は、ビデオ/画像圧縮と特徴圧縮をある程度別々の研究トラックにブリッジすることを約束している。
本稿では,既存の学術・産業活動に基づくVCM方法論と哲学を要約する。
論文 参考訳(メタデータ) (2021-10-18T12:42:13Z) - Revisit Visual Representation in Analytics Taxonomy: A Compression
Perspective [69.99087941471882]
圧縮された視覚表現を用いて複数のマシンビジョン分析タスクをサポートする問題について検討する。
異なるタスク間の本質的な転送性を利用することで、低ビットレートでコンパクトで表現力のある表現を構築できる。
表現にコンパクトさを課すために,コードブックベースのハイパープライヤを提案する。
論文 参考訳(メタデータ) (2021-06-16T01:44:32Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。