論文の概要: RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation
- arxiv url: http://arxiv.org/abs/2312.11829v1
- Date: Tue, 19 Dec 2023 03:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 17:12:02.560874
- Title: RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation
- Title(参考訳): RadOcc:Rendering Assisted Distillationを通じてモダリティの知識を学ぶ
- Authors: Haiming Zhang, Xu Yan, Dongfeng Bai, Jiantao Gao, Pan Wang, Bingbing
Liu, Shuguang Cui, Zhen Li
- Abstract要約: マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
- 参考スコア(独自算出の注目度): 50.35403070279804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction is an emerging task that aims to estimate the
occupancy states and semantics of 3D scenes using multi-view images. However,
image-based scene perception encounters significant challenges in achieving
accurate prediction due to the absence of geometric priors. In this paper, we
address this issue by exploring cross-modal knowledge distillation in this
task, i.e., we leverage a stronger multi-modal model to guide the visual model
during training. In practice, we observe that directly applying features or
logits alignment, proposed and widely used in bird's-eyeview (BEV) perception,
does not yield satisfactory results. To overcome this problem, we introduce
RadOcc, a Rendering assisted distillation paradigm for 3D Occupancy prediction.
By employing differentiable volume rendering, we generate depth and semantic
maps in perspective views and propose two novel consistency criteria between
the rendered outputs of teacher and student models. Specifically, the depth
consistency loss aligns the termination distributions of the rendered rays,
while the semantic consistency loss mimics the intra-segment similarity guided
by vision foundation models (VLMs). Experimental results on the nuScenes
dataset demonstrate the effectiveness of our proposed method in improving
various 3D occupancy prediction approaches, e.g., our proposed methodology
enhances our baseline by 2.2% in the metric of mIoU and achieves 50% in Occ3D
benchmark.
- Abstract(参考訳): マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新しい課題である。
しかし、画像に基づくシーン認識は、幾何学的事前の欠如により正確な予測を行う上で大きな課題に遭遇する。
本稿では,この課題におけるクロスモーダル知識の蒸留,すなわち,より強固なマルチモーダルモデルを活用して,トレーニング中の視覚モデルを導くことにより,この問題に対処する。
実際に,鳥眼視(BEV)知覚において提案され広く用いられている特徴やロジットアライメントを直接適用しても,良好な結果が得られない。
この問題を克服するために,3次元占有予測のためのレンダリング支援蒸留パラダイムであるradoccを紹介する。
微分可能なボリュームレンダリングを用いることで,教師モデルと生徒モデルの出力間の深さと意味マップを生成し,2つの新しい一貫性基準を提案する。
具体的には、深度一貫性損失はレンダリングされた光線の終端分布と一致し、セマンティック一貫性損失は視覚基礎モデル(VLM)によって導かれるセグメンテーション内類似性を模倣する。
nuScenes データセットの実験結果から,提案手法は,mIoU の計量で2.2% 向上し,Occ3D ベンチマークで50% 向上するなど,様々な3D 占有率予測手法の改善に有効であることが示された。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - SAM-Guided Masked Token Prediction for 3D Scene Understanding [20.257222696422215]
ファンデーションモデルは2Dタスクのパフォーマンスを大幅に向上させており、Bridge3Dのような最近の研究はこれらのモデルを用いて3Dシーン理解を改善している。
しかし、3次元データセットにおける2次元と3次元の表現の不一致や長期分布といった課題は、知識蒸留の有効性を制限している。
本稿では,3次元変圧器構造と地域レベルの知識蒸留をシームレスに整合させる新しいSAM誘導トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T01:38:59Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Exploring Latent Cross-Channel Embedding for Accurate 3D Human Pose
Reconstruction in a Diffusion Framework [6.669850111205944]
単眼の3次元ポーズ推定は、2Dから3Dへの再投射過程で生じる固有の深さの曖昧さによって重要な課題を提起する。
拡散モデルの最近の進歩は、再投射のあいまいさに対処するために構造的事前を組み込むことが約束されている。
本稿では,3次元座標の接合レベル特徴と2次元投影との相関関係の解明を目的とした,新しいクロスチャネル埋め込みフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T09:53:03Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文 参考訳(メタデータ) (2023-03-16T11:53:29Z) - A Dual-Cycled Cross-View Transformer Network for Unified Road Layout
Estimation and 3D Object Detection in the Bird's-Eye-View [4.251500966181852]
本稿では,トランスアーキテクチャとCycleGAN学習フレームワークにヒントを得た,道路レイアウト推定と3次元物体検出のための統一モデルを提案する。
道路配置推定におけるマルチクラス学習の効果を検討するために,幅広い学習シナリオを構築した。
その結果,道路配置推定と3次元物体検出の両タスクにおいて,最先端の性能を実現することができた。
論文 参考訳(メタデータ) (2022-09-19T08:43:38Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。