論文の概要: OccLinker: Deflickering Occupancy Networks through Lightweight Spatio-Temporal Correlation
- arxiv url: http://arxiv.org/abs/2502.15438v2
- Date: Mon, 10 Mar 2025 13:57:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:50:06.399194
- Title: OccLinker: Deflickering Occupancy Networks through Lightweight Spatio-Temporal Correlation
- Title(参考訳): OccLinker: 軽量時空間相関による運用ネットワークのフリック
- Authors: Fengcheng Yu, Haoran Xu, Canming Xia, Ziyang Zong, Guang Tan,
- Abstract要約: 視覚ベースの占有ネットワーク(VON)は、自動運転における3D環境を再構築するためのエンドツーエンドのソリューションを提供する。
近年のアプローチでは、この問題を軽減するために歴史的データを組み込んでいるが、しばしば高い計算コストを発生させ、物体検出に干渉するノイズの多い情報を導入している。
我々はOccLinkerを提案する。OccLinkerは既存のVONとシームレスに統合してパフォーマンスを向上させるための新しいプラグインフレームワークである。
- 参考スコア(独自算出の注目度): 15.726401007342087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based occupancy networks (VONs) provide an end-to-end solution for reconstructing 3D environments in autonomous driving. However, existing methods often suffer from temporal inconsistencies, manifesting as flickering effects that compromise visual experience and adversely affect decision-making. While recent approaches have incorporated historical data to mitigate the issue, they often incur high computational costs and introduce noisy information that interferes with object detection. We propose OccLinker, a novel plugin framework designed to seamlessly integrate with existing VONs for boosting performance. Our method employs a three-stage architecture that consolidates historical static and motion cues, correlates them with current features through a Motion-Static Integration (MSI) mechanism, and generates correction occupancy to refine base network predictions. Extensive experiments on two benchmarks demonstrate the efficiency and effectiveness of our method, outperforming the latest baseline models. The source code are available in the supplementary material.
- Abstract(参考訳): 視覚ベースの占有ネットワーク(VON)は、自動運転における3D環境を再構築するためのエンドツーエンドのソリューションを提供する。
しかし、既存の手法はしばしば時間的不整合に悩まされ、視覚的経験を妥協し、意思決定に悪影響を及ぼすフリッカリング効果として表される。
近年のアプローチでは、この問題を軽減するために歴史的データを組み込んでいるが、しばしば高い計算コストを発生させ、物体検出に干渉するノイズの多い情報を導入している。
我々はOccLinkerを提案する。OccLinkerは既存のVONとシームレスに統合し、パフォーマンスを向上させるための新しいプラグインフレームワークである。
提案手法では,3段階の静的および運動キューを統合し,動き-静的統合(MSI)機構によって現在の特徴と相関し,ベースネットワーク予測を洗練するための補正占有率を生成する。
2つのベンチマークによる大規模な実験は,提案手法の有効性と有効性を示し,最新のベースラインモデルを上回る結果を得た。
ソースコードは補足資料で入手できる。
関連論文リスト
- Mitigating Trade-off: Stream and Query-guided Aggregation for Efficient and Effective 3D Occupancy Prediction [12.064509280163502]
3Dの占有率予測は、自動運転の重要な認識課題として浮上している。
近年の研究では、過去の観測から得られた情報の統合に焦点が当てられ、予測精度が向上している。
本稿では,過去の情報をストリームベースで集約するフレームワークStreamOccを提案する。
Occ3D-nusデータセットの実験によると、StreamOccはリアルタイム設定で最先端のパフォーマンスを実現し、メモリ使用量を従来の方法に比べて50%以上削減している。
論文 参考訳(メタデータ) (2025-03-28T02:05:53Z) - FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - Spatiotemporal Decoupling for Efficient Vision-Based Occupancy Forecasting [18.933451243989452]
既存の3次元占有予測手法は、可動物体の空間的詳細性を予測するのに苦労する。
本稿では,このバイアスに明示的に対処し,効果的な3次元OCFを実現するための新しいビジョンベースパラダイムを提案する。
我々は,時間的に疎結合な表現で3次元OCFを実現するために,効率的なマルチヘッドネットワークネットワークであるEfficientOCFを開発した。
論文 参考訳(メタデータ) (2024-11-21T14:27:15Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Distribution Discrepancy and Feature Heterogeneity for Active 3D Object Detection [18.285299184361598]
LiDARベースの3Dオブジェクト検出は、自律走行とロボット工学の発展にとって重要な技術である。
DDFH(Dis Distribution Discrepancy and Feature Heterogeneity)と呼ばれる新しい効果的なアクティブラーニング手法を提案する。
幾何学的特徴とモデル埋め込みを同時に考慮し、インスタンスレベルとフレームレベルの両方の観点から情報を評価する。
論文 参考訳(メタデータ) (2024-09-09T08:26:11Z) - Efficiently Expanding Receptive Fields: Local Split Attention and Parallel Aggregation for Enhanced Large-scale Point Cloud Semantic Segmentation [7.199090922071512]
本研究では,複数の局所分割操作を通じて受容領域を効果的に拡張するLSAP機構を提案する。
本研究では,大規模クラウドセマンティックセマンティックセグメンテーションのための新しいフレームワークLSNetを提案する。
LSNetは3つのベンチマークデータセット上の最先端セマンティックセグメンテーションネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-03T07:10:20Z) - PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。
PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。
PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文 参考訳(メタデータ) (2024-08-26T19:43:01Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Practical Collaborative Perception: A Framework for Asynchronous and
Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。
最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。
我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文 参考訳(メタデータ) (2023-07-04T03:49:42Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。