論文の概要: Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2504.12959v1
- Date: Thu, 17 Apr 2025 14:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:36:46.311870
- Title: Rethinking Temporal Fusion with a Unified Gradient Descent View for 3D Semantic Occupancy Prediction
- Title(参考訳): 3次元意味的活動予測のための一貫した粒度図による時間的融合の再考
- Authors: Dubing Chen, Huan Zheng, Jin Fang, Xingping Dong, Xianfei Li, Wenlong Liao, Tao He, Pai Peng, Jianbing Shen,
- Abstract要約: 視覚に基づく3次元意味的占有予測(VisionOcc)のための時間融合法であるGAFusionを提案する。
これは、VisionOccフレームワーク内の時間融合の未調査の側面を開き、時間的手がかりと融合戦略の両方に焦点を当てる。
- 参考スコア(独自算出の注目度): 62.69089767730514
- License:
- Abstract: We present GDFusion, a temporal fusion method for vision-based 3D semantic occupancy prediction (VisionOcc). GDFusion opens up the underexplored aspects of temporal fusion within the VisionOcc framework, focusing on both temporal cues and fusion strategies. It systematically examines the entire VisionOcc pipeline, identifying three fundamental yet previously overlooked temporal cues: scene-level consistency, motion calibration, and geometric complementation. These cues capture diverse facets of temporal evolution and make distinct contributions across various modules in the VisionOcc framework. To effectively fuse temporal signals across heterogeneous representations, we propose a novel fusion strategy by reinterpreting the formulation of vanilla RNNs. This reinterpretation leverages gradient descent on features to unify the integration of diverse temporal information, seamlessly embedding the proposed temporal cues into the network. Extensive experiments on nuScenes demonstrate that GDFusion significantly outperforms established baselines. Notably, on Occ3D benchmark, it achieves 1.4\%-4.8\% mIoU improvements and reduces memory consumption by 27\%-72\%.
- Abstract(参考訳): 視覚に基づく3次元セマンティック占有予測(VisionOcc)のための時間融合法であるGAFusionを提案する。
GDFusionは、VisionOccフレームワーク内の時間融合の未調査の側面を開放し、時間的手がかりと融合戦略の両方に焦点を当てる。
VisionOccパイプライン全体を体系的に調査し、シーンレベルの一貫性、モーションキャリブレーション、幾何学的補完という、これまで見過ごされていた3つの基本的な時間的手がかりを特定した。
これらのキューは、時間進化の様々な側面を捉え、VisionOccフレームワークの様々なモジュールに異なる貢献をする。
異種表現間の時間的信号を効果的に融合するために,バニラRNNの定式化を再解釈し,新たな融合戦略を提案する。
この再解釈は、機能への勾配降下を利用して、様々な時間情報の統合を統一し、提案した時間的手がかりをネットワークにシームレスに埋め込む。
nuScenesの大規模な実験により、GDFusionは確立されたベースラインよりも著しく優れていることが示された。
特にOcc3Dベンチマークでは、1.4 %-4.8 % mIoUの改善を実現し、メモリ消費を27 %-72 %削減している。
関連論文リスト
- SSRFlow: Semantic-aware Fusion with Spatial Temporal Re-embedding for Real-world Scene Flow [6.995663556921384]
シーンフローは、2つの連続する点雲から第1フレームの3次元運動場を提供する。
本稿では,2つのフレーム間の融合とアライメントのためのDCA(Dual Cross Attentive)という新しい手法を提案する。
我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを効果的に橋渡しする。
論文 参考訳(メタデータ) (2024-07-31T02:28:40Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Intensity Profile Projection: A Framework for Continuous-Time
Representation Learning for Dynamic Networks [50.2033914945157]
本稿では、連続時間動的ネットワークデータのための表現学習フレームワークIntensity Profile Projectionを提案する。
このフレームワークは3つの段階から構成される: 対の強度関数を推定し、強度再構成誤差の概念を最小化する射影を学習する。
さらに、推定軌跡の誤差を厳密に制御する推定理論を開発し、その表現がノイズに敏感な追従解析に利用できることを示す。
論文 参考訳(メタデータ) (2023-06-09T15:38:25Z) - Local-Global Temporal Difference Learning for Satellite Video
Super-Resolution [55.69322525367221]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Spatiotemporal Fusion in 3D CNNs: A Probabilistic View [129.84064609199663]
そこで我々は,時間的融合戦略の成功を確率に変換することを提案する。これにより,個別に訓練することなく,様々な融合戦略のネットワークレベルの評価を行うことができる。
本手法は時間融合解析の効率を大幅に向上させる。
我々は4つの精密な行動認識データセット上で最先端の性能を達成するための新たな融合戦略を生成する。
論文 参考訳(メタデータ) (2020-04-10T10:40:35Z) - A Graph Attention Spatio-temporal Convolutional Network for 3D Human
Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。
提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文 参考訳(メタデータ) (2020-03-11T14:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。