Fugu-MT 論文翻訳(概要): OccLinker: Deflickering Occupancy Networks through Lightweight Spatio-Temporal Correlation

論文の概要: OccLinker: Deflickering Occupancy Networks through Lightweight Spatio-Temporal Correlation

arxiv url: http://arxiv.org/abs/2502.15438v2
Date: Mon, 10 Mar 2025 13:57:27 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 15:50:06.399194
Title: OccLinker: Deflickering Occupancy Networks through Lightweight Spatio-Temporal Correlation
Title（参考訳）: OccLinker: 軽量時空間相関による運用ネットワークのフリック
Authors: Fengcheng Yu, Haoran Xu, Canming Xia, Ziyang Zong, Guang Tan,
Abstract要約: 視覚ベースの占有ネットワーク(VON)は、自動運転における3D環境を再構築するためのエンドツーエンドのソリューションを提供する。近年のアプローチでは、この問題を軽減するために歴史的データを組み込んでいるが、しばしば高い計算コストを発生させ、物体検出に干渉するノイズの多い情報を導入している。我々はOccLinkerを提案する。OccLinkerは既存のVONとシームレスに統合してパフォーマンスを向上させるための新しいプラグインフレームワークである。
参考スコア（独自算出の注目度）: 15.726401007342087
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-based occupancy networks (VONs) provide an end-to-end solution for reconstructing 3D environments in autonomous driving. However, existing methods often suffer from temporal inconsistencies, manifesting as flickering effects that compromise visual experience and adversely affect decision-making. While recent approaches have incorporated historical data to mitigate the issue, they often incur high computational costs and introduce noisy information that interferes with object detection. We propose OccLinker, a novel plugin framework designed to seamlessly integrate with existing VONs for boosting performance. Our method employs a three-stage architecture that consolidates historical static and motion cues, correlates them with current features through a Motion-Static Integration (MSI) mechanism, and generates correction occupancy to refine base network predictions. Extensive experiments on two benchmarks demonstrate the efficiency and effectiveness of our method, outperforming the latest baseline models. The source code are available in the supplementary material.
Abstract（参考訳）: 視覚ベースの占有ネットワーク(VON)は、自動運転における3D環境を再構築するためのエンドツーエンドのソリューションを提供する。しかし、既存の手法はしばしば時間的不整合に悩まされ、視覚的経験を妥協し、意思決定に悪影響を及ぼすフリッカリング効果として表される。近年のアプローチでは、この問題を軽減するために歴史的データを組み込んでいるが、しばしば高い計算コストを発生させ、物体検出に干渉するノイズの多い情報を導入している。我々はOccLinkerを提案する。OccLinkerは既存のVONとシームレスに統合し、パフォーマンスを向上させるための新しいプラグインフレームワークである。提案手法では,3段階の静的および運動キューを統合し,動き-静的統合(MSI)機構によって現在の特徴と相関し,ベースネットワーク予測を洗練するための補正占有率を生成する。 2つのベンチマークによる大規模な実験は,提案手法の有効性と有効性を示し,最新のベースラインモデルを上回る結果を得た。ソースコードは補足資料で入手できる。

関連論文リスト

LiDAR Point Cloud Image-based Generation Using Denoising Diffusion Probabilistic Models [0.2809622746998686]
現実世界のLiDARデータは時間がかかり、悪天候やセンサーの制限によってノイズや空間に影響を受けることが多い。本研究は, 拡散確率モデル (DDPM) を適用して, 改良のための高品質な合成データを生成する。
論文参考訳（メタデータ） (2025-09-23T12:35:07Z)
Occupancy Learning with Spatiotemporal Memory [39.41175479685905]
本稿では,時間的整合性のある3次元占有特徴を効果的に学習するシーンレベルの占有表現学習フレームワークを提案する。提案手法は,多フレーム入力間の時間的依存性を利用して,3次元占有予測タスクの時間的表現を著しく向上させる。
論文参考訳（メタデータ） (2025-08-06T17:59:52Z)
Inference-Time Gaze Refinement for Micro-Expression Recognition: Enhancing Event-Based Eye Tracking with Motion-Aware Post-Processing [2.5465367830324905]
イベントベースの視線追跡は、きめ細かい認知状態の推測に重要な可能性を秘めている。本稿では、既存の事象に基づく視線推定モデルの出力を高めるために、モデルに依存しない推論時間改善フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-14T14:48:11Z)
Towards Effective and Efficient Adversarial Defense with Diffusion Models for Robust Visual Tracking [15.806472680573297]
本稿では,DiffDfと呼ばれる拡散確率モデルに基づく新しい敵防衛法を提案する。実験により、DiffDfは30FPS以上のリアルタイム推論速度を実現し、優れた防御性能と効率を示すことが示された。
論文参考訳（メタデータ） (2025-05-31T00:37:28Z)
Mitigating Trade-off: Stream and Query-guided Aggregation for Efficient and Effective 3D Occupancy Prediction [12.064509280163502]
3Dの占有率予測は、自動運転の重要な認識課題として浮上している。近年の研究では、過去の観測から得られた情報の統合に焦点が当てられ、予測精度が向上している。本稿では,過去の情報をストリームベースで集約するフレームワークStreamOccを提案する。 Occ3D-nusデータセットの実験によると、StreamOccはリアルタイム設定で最先端のパフォーマンスを実現し、メモリ使用量を従来の方法に比べて50%以上削減している。
論文参考訳（メタデータ） (2025-03-28T02:05:53Z)
FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。近年の手法では、レンジビュー表現を利用して処理効率を向上している。範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文参考訳（メタデータ） (2025-02-13T12:39:26Z)
Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文参考訳（メタデータ） (2024-12-09T12:27:21Z)
Spatiotemporal Decoupling for Efficient Vision-Based Occupancy Forecasting [18.933451243989452]
既存の3次元占有予測手法は、可動物体の空間的詳細性を予測するのに苦労する。本稿では,このバイアスに明示的に対処し,効果的な3次元OCFを実現するための新しいビジョンベースパラダイムを提案する。我々は,時間的に疎結合な表現で3次元OCFを実現するために,効率的なマルチヘッドネットワークネットワークであるEfficientOCFを開発した。
論文参考訳（メタデータ） (2024-11-21T14:27:15Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Distribution Discrepancy and Feature Heterogeneity for Active 3D Object Detection [18.285299184361598]
LiDARベースの3Dオブジェクト検出は、自律走行とロボット工学の発展にとって重要な技術である。 DDFH(Dis Distribution Discrepancy and Feature Heterogeneity)と呼ばれる新しい効果的なアクティブラーニング手法を提案する。幾何学的特徴とモデル埋め込みを同時に考慮し、インスタンスレベルとフレームレベルの両方の観点から情報を評価する。
論文参考訳（メタデータ） (2024-09-09T08:26:11Z)
Efficiently Expanding Receptive Fields: Local Split Attention and Parallel Aggregation for Enhanced Large-scale Point Cloud Semantic Segmentation [7.199090922071512]
本研究では,複数の局所分割操作を通じて受容領域を効果的に拡張するLSAP機構を提案する。本研究では,大規模クラウドセマンティックセマンティックセグメンテーションのための新しいフレームワークLSNetを提案する。 LSNetは3つのベンチマークデータセット上の最先端セマンティックセグメンテーションネットワークよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-09-03T07:10:20Z)
PVAFN: Point-Voxel Attention Fusion Network with Multi-Pooling Enhancing for 3D Object Detection [59.355022416218624]
点とボクセルの表現の統合は、LiDARベースの3Dオブジェクト検出においてより一般的になりつつある。 PVAFN(Point-Voxel Attention Fusion Network)と呼ばれる新しい2段3次元物体検出器を提案する。 PVAFNはマルチプール戦略を使用して、マルチスケールとリージョン固有の情報を効果的に統合する。
論文参考訳（メタデータ） (2024-08-26T19:43:01Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。 ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文参考訳（メタデータ） (2024-03-02T08:06:18Z)
LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry [52.131996528655094]
本稿では,LEAP(Long-term Effective Any Point Tracking)モジュールについて述べる。 LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。
論文参考訳（メタデータ） (2024-01-03T18:57:27Z)
Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文参考訳（メタデータ） (2023-08-14T08:23:58Z)
Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文参考訳（メタデータ） (2023-07-26T09:47:37Z)
Practical Collaborative Perception: A Framework for Asynchronous and Multi-Agent 3D Object Detection [9.967263440745432]
咬合は、LiDARベースのオブジェクト検出方法において大きな課題である。最先端のV2X手法は、中間協調手法を用いて性能帯域幅のトレードオフを解消する。我々は,従来の方法よりも帯域幅と性能のトレードオフを向上する,シンプルで効果的な協調手法を考案した。
論文参考訳（メタデータ） (2023-07-04T03:49:42Z)
Intensity Profile Projection: A Framework for Continuous-Time Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文参考訳（メタデータ） (2023-06-09T15:38:25Z)
Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文参考訳（メタデータ） (2023-03-14T02:58:27Z)
Correlating sparse sensing for large-scale traffic speed estimation: A Laplacian-enhanced low-rank tensor kriging approach [76.45949280328838]
本稿では,Laplacian enhanced Low-rank tensor (LETC) フレームワークを提案する。次に,提案したモデルをネットワークワイド・クリグにスケールアップするために,複数の有効な数値手法を用いて効率的な解アルゴリズムを設計する。
論文参考訳（メタデータ） (2022-10-21T07:25:57Z)
Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。 Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-18T03:48:58Z)
Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文参考訳（メタデータ） (2022-03-23T11:33:27Z)
Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文参考訳（メタデータ） (2022-03-03T11:53:54Z)
Continuity-Discrimination Convolutional Neural Network for Visual Object Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文参考訳（メタデータ） (2021-04-18T06:35:03Z)
Generative Partial Visual-Tactile Fused Object Clustering [81.17645983141773]
オブジェクトクラスタリングのためのGenerative Partial Visual-Tactile Fused(GPVTF)フレームワークを提案する。条件付きクロスモーダルクラスタリング生成逆ネットワークを開発し、一方のモダリティ条件を他方のモダリティ上で合成する。最後に、擬似ラベルに基づく2つのKL分割損失を用いて、対応するモダリティ固有エンコーダを更新する。
論文参考訳（メタデータ） (2020-12-28T02:37:03Z)
Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。 LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文参考訳（メタデータ） (2020-04-06T11:08:12Z)
Spatial-Spectral Residual Network for Hyperspectral Image Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文参考訳（メタデータ） (2020-01-14T03:34:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。