論文の概要: Double Deep Learning-based Event Data Coding and Classification
- arxiv url: http://arxiv.org/abs/2407.15531v1
- Date: Mon, 22 Jul 2024 10:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:21:11.538125
- Title: Double Deep Learning-based Event Data Coding and Classification
- Title(参考訳): ダブルディープラーニングに基づくイベントデータ符号化と分類
- Authors: Abdelrahman Seleem, André F. R. Guarda, Nuno M. M. Rodrigues, Fernando Pereira,
- Abstract要約: イベントカメラは、"イベント"と呼ばれる、画素ごとの非同期の明るさ変化をキャプチャする機能を持つ
本稿では、イベントのポイントクラウドベースの表現を用いて、イベントデータ符号化と分類の両方のための新しいダブルディープラーニングベースのアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 45.8313373627054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event cameras have the ability to capture asynchronous per-pixel brightness changes, called "events", offering advantages over traditional frame-based cameras for computer vision applications. Efficiently coding event data is critical for transmission and storage, given the significant volume of events. This paper proposes a novel double deep learning-based architecture for both event data coding and classification, using a point cloud-based representation for events. In this context, the conversions from events to point clouds and back to events are key steps in the proposed solution, and therefore its impact is evaluated in terms of compression and classification performance. Experimental results show that it is possible to achieve a classification performance of compressed events which is similar to one of the original events, even after applying a lossy point cloud codec, notably the recent learning-based JPEG Pleno Point Cloud Coding standard, with a clear rate reduction. Experimental results also demonstrate that events coded using JPEG PCC achieve better classification performance than those coded using the conventional lossy MPEG Geometry-based Point Cloud Coding standard. Furthermore, the adoption of learning-based coding offers high potential for performing computer vision tasks in the compressed domain, which allows skipping the decoding stage while mitigating the impact of coding artifacts.
- Abstract(参考訳): イベントカメラは"イベント(events)"と呼ばれる、ピクセルごとの非同期の明るさ変化をキャプチャする機能を備えており、コンピュータビジョンアプリケーションのための従来のフレームベースのカメラよりも利点がある。
イベントデータの効率的なコーディングは、大量のイベントを考慮すれば、送信とストレージに不可欠である。
本稿では、イベントのポイントクラウドベースの表現を用いて、イベントデータ符号化と分類の両方のための新しいダブルディープラーニングベースのアーキテクチャを提案する。
この文脈では、イベントからポイントクラウドへの変換とイベントへの変換は提案手法の重要なステップであり、その影響は圧縮と分類性能の観点から評価される。
実験結果から,近年のJPEG Pleno Point Cloud Coding標準において,損失点クラウドコーデックを適用した場合でも,圧縮イベントの分類性能が元のイベントの1つに類似していることが示唆された。
また、JPEG PCCを用いて符号化されたイベントは、従来のMPEG幾何ベースのPoint Cloud Coding標準を用いて符号化されたイベントよりも優れた分類性能が得られることを示した。
さらに、学習ベースのコーディングの採用は、圧縮されたドメインでコンピュータビジョンタスクを実行する可能性が高く、コーディングアーティファクトの影響を緩和しつつ、デコードステージをスキップすることができる。
関連論文リスト
- Deep Learning-based Event Data Coding: A Joint Spatiotemporal and Polarity Solution [45.8313373627054]
イベントカメラは、時間的・極性的な情報によって構成された大量のピクセルレベルのイベントを生成する。
本稿では,単一ポイントのクラウド表現を取り入れた新しい損失型深層学習型統合イベントデータ符号化(DL-JEC)ソリューションを提案する。
対象のコンピュータビジョンタスクのパフォーマンスを損なうことなく、符号化の速度を低下させながら、損失のあるイベントデータを使用できることが示されている。
論文 参考訳(メタデータ) (2025-02-05T15:39:55Z) - Event Masked Autoencoder: Point-wise Action Recognition with Event-Based Cameras [8.089601548579116]
本稿では,行動認識のためのイベントデータの構造を保存・活用する新しいフレームワークを提案する。
本フレームワークは,1)マスキングされた生のイベントカメラポイントデータからイベントパッチを再構成することにより,コンパクトかつ離散的な表現を学習するポイントワイド・イベントマスク自動エンコーダ (MAE) ,2) イベントデータインレーヤモデルとポイントワイドデータ拡張技術を活用する改良されたイベントポイントパッチ生成アルゴリズムにより,品質と多様性のイベントポイントパッチを向上する。
論文 参考訳(メタデータ) (2025-01-02T03:49:03Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - The JPEG Pleno Learning-based Point Cloud Coding Standard: Serving Man and Machine [49.16996486119006]
ディープラーニングは、ポイントクラウドコーディングの強力なツールとして登場した。
JPEGは先日、JPEG Pleno LearningベースのPoint Cloud Coding標準を確定した。
本稿ではJPEG PCC標準の完全な技術的記述を提供する。
論文 参考訳(メタデータ) (2024-09-12T15:20:23Z) - EZSR: Event-based Zero-Shot Recognition [21.10165234725309]
本稿では,イベントカメラデータを用いたゼロショット物体認識について検討する。
イベントエンコーダを追加の再構成ネットワークに頼ることなく開発する。
ViT/B-16バックボーンを用いたモデルでは,N-ImageNetデータセット上で47.84%のゼロショット精度を実現している。
論文 参考訳(メタデータ) (2024-07-31T14:06:06Z) - EventCLIP: Adapting CLIP for Event-based Object Recognition [26.35633454924899]
EventCLIPは、ゼロショットと少数ショットのイベントベースのオブジェクト認識にCLIPを使用する新しいアプローチである。
まず、生イベントを2次元グリッドベース表現に変換することで、CLIPのイメージエンコーダをイベントデータに一般化する。
N-Caltech、N-Cars、N-ImageNetのデータセット上でEventCLIPを評価し、最先端のショットパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-10T06:05:35Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。