論文の概要: RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation
- arxiv url: http://arxiv.org/abs/2312.11829v1
- Date: Tue, 19 Dec 2023 03:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:12:02.560874
- Title: RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation
- Title(参考訳): RadOcc:Rendering Assisted Distillationを通じてモダリティの知識を学ぶ
- Authors: Haiming Zhang, Xu Yan, Dongfeng Bai, Jiantao Gao, Pan Wang, Bingbing
Liu, Shuguang Cui, Zhen Li
- Abstract要約: マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
- 参考スコア(独自算出の注目度): 50.35403070279804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction is an emerging task that aims to estimate the
occupancy states and semantics of 3D scenes using multi-view images. However,
image-based scene perception encounters significant challenges in achieving
accurate prediction due to the absence of geometric priors. In this paper, we
address this issue by exploring cross-modal knowledge distillation in this
task, i.e., we leverage a stronger multi-modal model to guide the visual model
during training. In practice, we observe that directly applying features or
logits alignment, proposed and widely used in bird's-eyeview (BEV) perception,
does not yield satisfactory results. To overcome this problem, we introduce
RadOcc, a Rendering assisted distillation paradigm for 3D Occupancy prediction.
By employing differentiable volume rendering, we generate depth and semantic
maps in perspective views and propose two novel consistency criteria between
the rendered outputs of teacher and student models. Specifically, the depth
consistency loss aligns the termination distributions of the rendered rays,
while the semantic consistency loss mimics the intra-segment similarity guided
by vision foundation models (VLMs). Experimental results on the nuScenes
dataset demonstrate the effectiveness of our proposed method in improving
various 3D occupancy prediction approaches, e.g., our proposed methodology
enhances our baseline by 2.2% in the metric of mIoU and achieves 50% in Occ3D
benchmark.
- Abstract(参考訳): マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新しい課題である。
しかし、画像に基づくシーン認識は、幾何学的事前の欠如により正確な予測を行う上で大きな課題に遭遇する。
本稿では,この課題におけるクロスモーダル知識の蒸留,すなわち,より強固なマルチモーダルモデルを活用して,トレーニング中の視覚モデルを導くことにより,この問題に対処する。
実際に,鳥眼視(BEV)知覚において提案され広く用いられている特徴やロジットアライメントを直接適用しても,良好な結果が得られない。
この問題を克服するために,3次元占有予測のためのレンダリング支援蒸留パラダイムであるradoccを紹介する。
微分可能なボリュームレンダリングを用いることで,教師モデルと生徒モデルの出力間の深さと意味マップを生成し,2つの新しい一貫性基準を提案する。
具体的には、深度一貫性損失はレンダリングされた光線の終端分布と一致し、セマンティック一貫性損失は視覚基礎モデル(VLM)によって導かれるセグメンテーション内類似性を模倣する。
nuScenes データセットの実験結果から,提案手法は,mIoU の計量で2.2% 向上し,Occ3D ベンチマークで50% 向上するなど,様々な3D 占有率予測手法の改善に有効であることが示された。
関連論文リスト
- ViPOcc: Leveraging Visual Priors from Vision Foundation Models for Single-View 3D Occupancy Prediction [11.312780421161204]
本稿では,視覚基盤モデルからの視覚的先行情報を活用して,詳細な3D占有率予測を行うViPOccを提案する。
また,効率的な実例認識光サンプリングのための意味誘導型非重複ガウス混合サンプリング器を提案する。
本実験は,3次元占有予測と深度推定の両方において,ViPOccの優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-15T15:04:27Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - SAM-Guided Masked Token Prediction for 3D Scene Understanding [20.257222696422215]
ファンデーションモデルは2Dタスクのパフォーマンスを大幅に向上させており、Bridge3Dのような最近の研究はこれらのモデルを用いて3Dシーン理解を改善している。
しかし、3次元データセットにおける2次元と3次元の表現の不一致や長期分布といった課題は、知識蒸留の有効性を制限している。
本稿では,3次元変圧器構造と地域レベルの知識蒸留をシームレスに整合させる新しいSAM誘導トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T01:38:59Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose
Reconstruction in a Diffusion Framework [6.669850111205944]
単眼の3次元ポーズ推定は、2Dから3Dへの再投射過程で生じる固有の深さの曖昧さによって重要な課題を提起する。
拡散モデルの最近の進歩は、再投射のあいまいさに対処するために構造的事前を組み込むことが約束されている。
本稿では,3次元座標の接合レベル特徴と2次元投影との相関関係の解明を目的とした,新しいクロスチャネル埋め込みフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T09:53:03Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文 参考訳(メタデータ) (2023-03-16T11:53:29Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。