論文の概要: ESP-PCT: Enhanced VR Semantic Performance through Efficient Compression of Temporal and Spatial Redundancies in Point Cloud Transformers
- arxiv url: http://arxiv.org/abs/2409.01216v1
- Date: Mon, 2 Sep 2024 12:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 06:47:21.059980
- Title: ESP-PCT: Enhanced VR Semantic Performance through Efficient Compression of Temporal and Spatial Redundancies in Point Cloud Transformers
- Title(参考訳): ESP-PCT:ポイントクラウドトランスにおける時間的・空間的冗長性の効率的な圧縮によるVRセマンティックパフォーマンスの向上
- Authors: Luoyu Mei, Shuai Wang, Yun Cheng, Ruofeng Liu, Zhimeng Yin, Wenchao Jiang, Shuai Wang, Wei Gong,
- Abstract要約: 本稿では,VRアプリケーションに適した2段階のセマンティック・セマンティック・パフォーマンス・ポイント・クラウド・トランスフォーマであるESP-PCTを紹介する。
ESP-PCTは計算要求(FLOP)を76.9%削減し、メモリ使用量を78.2%削減し、93.2%の精度を達成した。
- 参考スコア(独自算出の注目度): 13.589659299126968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic recognition is pivotal in virtual reality (VR) applications, enabling immersive and interactive experiences. A promising approach is utilizing millimeter-wave (mmWave) signals to generate point clouds. However, the high computational and memory demands of current mmWave point cloud models hinder their efficiency and reliability. To address this limitation, our paper introduces ESP-PCT, a novel Enhanced Semantic Performance Point Cloud Transformer with a two-stage semantic recognition framework tailored for VR applications. ESP-PCT takes advantage of the accuracy of sensory point cloud data and optimizes the semantic recognition process, where the localization and focus stages are trained jointly in an end-to-end manner. We evaluate ESP-PCT on various VR semantic recognition conditions, demonstrating substantial enhancements in recognition efficiency. Notably, ESP-PCT achieves a remarkable accuracy of 93.2% while reducing the computational requirements (FLOPs) by 76.9% and memory usage by 78.2% compared to the existing Point Transformer model simultaneously. These underscore ESP-PCT's potential in VR semantic recognition by achieving high accuracy and reducing redundancy. The code and data of this project are available at \url{https://github.com/lymei-SEU/ESP-PCT}.
- Abstract(参考訳): セマンティック認識は仮想現実(VR)アプリケーションにおいて重要なものであり、没入的でインタラクティブな体験を可能にする。
有望なアプローチは、ミリ波(mmWave)信号を利用して点雲を生成することである。
しかし、現在のmmWaveポイントクラウドモデルの高い計算とメモリ要求は、その効率と信頼性を妨げている。
この制限に対処するため,本論文では,VRアプリケーションに適した2段階のセマンティック・セマンティック・パフォーマンス・ポイント・クラウド・トランスフォーマであるESP-PCTを紹介する。
ESP-PCTは、センサポイントクラウドデータの精度を活用し、ローカライゼーションとフォーカスステージをエンドツーエンドで共同でトレーニングする意味認識プロセスを最適化する。
各種VRセマンティック認識条件でESP-PCTを評価し,認識効率を大幅に向上させた。
特に、ESP-PCTは計算要求(FLOP)を76.9%削減し、メモリ使用量を78.2%削減し、93.2%の精度を達成している。
これらのことは、高い精度と冗長性を低下させることにより、VRセマンティック認識におけるESP-PCTの可能性を強調している。
このプロジェクトのコードとデータは \url{https://github.com/lymei-SEU/ESP-PCT} で公開されている。
関連論文リスト
- Efficient Spatio-Temporal Signal Recognition on Edge Devices Using PointLCA-Net [0.45609532372046985]
本稿では、ポイントネットの特徴抽出とインメモリコンピューティング能力と時間信号認識のためのニューロモルフィックシステムのエネルギー効率を組み合わせたアプローチを提案する。
PointNetは、推定とトレーニングの両方において、同等のアプローチよりも高い精度とエネルギー負担を著しく低減します。
論文 参考訳(メタデータ) (2024-11-21T20:48:40Z) - Low-power event-based face detection with asynchronous neuromorphic
hardware [2.0774873363739985]
本稿では、SynSense Speckニューロモルフィックチップ上に展開されたイベントベースの顔検出のためのオンチップスパイクニューラルネットワークの最初の例を示す。
トレーニングに用いるオフチップクロック駆動シミュレーションとオンチップイベント駆動推論との精度の相違について述べる。
オンチップ顔検出のmAP[0.5]は0.6で、20mWしか消費しない。
論文 参考訳(メタデータ) (2023-12-21T19:23:02Z) - Enhancing Reliability in Federated mmWave Networks: A Practical and
Scalable Solution using Radar-Aided Dynamic Blockage Recognition [14.18507067281377]
本稿では,ミリ波(mmWave)およびテラヘルツ(THz)ネットワークサービスの動的屋外環境における信頼性向上のための新しい手法を提案する。
これらの設定では、人や車などの障害物を動かすことで、視線接続(LoS)が簡単に中断される。
提案手法はRadar-Aided Blockage Dynamic Recognition (RaDaR)と呼ばれ、レーダー計測とフェデレートラーニング(FL)を活用して、二重出力ニューラルネットワーク(NN)モデルをトレーニングする。
論文 参考訳(メタデータ) (2023-06-22T10:10:25Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - Towards Domain-Independent and Real-Time Gesture Recognition Using
mmWave Signal [11.76969975145963]
DI-Gesture はドメインに依存しないリアルタイムの mmWave ジェスチャー認識システムである。
リアルタイムシナリオでは、DI-Gesutreの精度は平均推定時間2.87msで97%以上に達する。
論文 参考訳(メタデータ) (2021-11-11T13:28:28Z) - Remote Multilinear Compressive Learning with Adaptive Compression [107.87219371697063]
MultiIoT Compressive Learning (MCL)は、多次元信号に対する効率的な信号取得および学習パラダイムである。
MCLモデルにそのような機能を実現するための新しい最適化手法を提案する。
論文 参考訳(メタデータ) (2021-09-02T19:24:03Z) - Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets
Deep Reinforcement Learning [76.46530937296066]
本稿では,無線モバイルユーザに対して,超信頼性でエネルギー効率のよいバーチャルリアリティ(VR)体験を提供するという課題について検討する。
モバイルユーザへの信頼性の高い超高精細ビデオフレーム配信を実現するために,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。
論文 参考訳(メタデータ) (2021-06-03T08:35:10Z) - DeepCompress: Efficient Point Cloud Geometry Compression [1.808877001896346]
本稿では,ポイントクラウド圧縮のためのより効率的なディープラーニングベースのエンコーダアーキテクチャを提案する。
CENIC(Efficient Neural Image Compression)から学習した活性化関数を組み込むことで,効率と性能が劇的に向上することを示す。
提案手法は,BjontegardデルタレートとPSNR値において,ベースラインアプローチよりも小さなマージンで優れていた。
論文 参考訳(メタデータ) (2021-06-02T23:18:11Z) - Highly Efficient Salient Object Detection with 100K Parameters [137.74898755102387]
そこで我々は,段階内および複数ステージのマルチスケール機能を効率的に活用するために,フレキシブルな畳み込みモジュールであるOctoConv(gOctConv)を提案する。
我々は、非常に軽量なモデル、すなわちCSNetを構築し、一般的なオブジェクト検出ベンチマークで、約0.2%(100k)の大規模モデルで同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-03-12T07:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。