論文の概要: OccLinker: Deflickering Occupancy Networks through Lightweight Spatio-Temporal Correlation
- arxiv url: http://arxiv.org/abs/2502.15438v2
- Date: Mon, 10 Mar 2025 13:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:40:26.196470
- Title: OccLinker: Deflickering Occupancy Networks through Lightweight Spatio-Temporal Correlation
- Title(参考訳): OccLinker: 軽量時空間相関による運用ネットワークのフリック
- Authors: Fengcheng Yu, Haoran Xu, Canming Xia, Ziyang Zong, Guang Tan,
- Abstract要約: 視覚ベースの占有ネットワーク(VON)は、自動運転における3D環境を再構築するためのエンドツーエンドのソリューションを提供する。
近年のアプローチでは、この問題を軽減するために歴史的データを組み込んでいるが、しばしば高い計算コストを発生させ、物体検出に干渉するノイズの多い情報を導入している。
我々はOccLinkerを提案する。OccLinkerは既存のVONとシームレスに統合してパフォーマンスを向上させるための新しいプラグインフレームワークである。
- 参考スコア(独自算出の注目度): 15.726401007342087
- License:
- Abstract: Vision-based occupancy networks (VONs) provide an end-to-end solution for reconstructing 3D environments in autonomous driving. However, existing methods often suffer from temporal inconsistencies, manifesting as flickering effects that compromise visual experience and adversely affect decision-making. While recent approaches have incorporated historical data to mitigate the issue, they often incur high computational costs and introduce noisy information that interferes with object detection. We propose OccLinker, a novel plugin framework designed to seamlessly integrate with existing VONs for boosting performance. Our method employs a three-stage architecture that consolidates historical static and motion cues, correlates them with current features through a Motion-Static Integration (MSI) mechanism, and generates correction occupancy to refine base network predictions. Extensive experiments on two benchmarks demonstrate the efficiency and effectiveness of our method, outperforming the latest baseline models. The source code are available in the supplementary material.
- Abstract(参考訳): 視覚ベースの占有ネットワーク(VON)は、自動運転における3D環境を再構築するためのエンドツーエンドのソリューションを提供する。
しかし、既存の手法はしばしば時間的不整合に悩まされ、視覚的経験を妥協し、意思決定に悪影響を及ぼすフリッカリング効果として表される。
近年のアプローチでは、この問題を軽減するために歴史的データを組み込んでいるが、しばしば高い計算コストを発生させ、物体検出に干渉するノイズの多い情報を導入している。
我々はOccLinkerを提案する。OccLinkerは既存のVONとシームレスに統合し、パフォーマンスを向上させるための新しいプラグインフレームワークである。
提案手法では,3段階の静的および運動キューを統合し,動き-静的統合(MSI)機構によって現在の特徴と相関し,ベースネットワーク予測を洗練するための補正占有率を生成する。
2つのベンチマークによる大規模な実験は,提案手法の有効性と有効性を示し,最新のベースラインモデルを上回る結果を得た。
ソースコードは補足資料で入手できる。
関連論文リスト
- FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - Efficiently Expanding Receptive Fields: Local Split Attention and Parallel Aggregation for Enhanced Large-scale Point Cloud Semantic Segmentation [7.199090922071512]
本研究では,複数の局所分割操作を通じて受容領域を効果的に拡張するLSAP機構を提案する。
本研究では,大規模クラウドセマンティックセマンティックセグメンテーションのための新しいフレームワークLSNetを提案する。
LSNetは3つのベンチマークデータセット上の最先端セマンティックセグメンテーションネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-03T07:10:20Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。