論文の概要: Enhancing Indoor Occupancy Prediction via Sparse Query-Based Multi-Level Consistent Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2602.02318v1
- Date: Mon, 02 Feb 2026 16:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.305685
- Title: Enhancing Indoor Occupancy Prediction via Sparse Query-Based Multi-Level Consistent Knowledge Distillation
- Title(参考訳): スパースクエリに基づくマルチレベル一貫性知識蒸留による室内環境予測の強化
- Authors: Xiang Li, Yupeng Zheng, Pengfei Li, Yilun Chen, Ya-Qin Zhang, Wenchao Ding,
- Abstract要約: DiSceneは、占有率予測のための新しいスパースクエリベースのフレームワークである。
本手法は,(1)多段階連続的知識蒸留戦略,(2)教師指導初期化政策の2つの重要なイノベーションを取り入れている。
ディープインテグレーションにより、DiSceneは新たなSOTAパフォーマンスを獲得し、EmbodiedOccを3.7%上回り、1.62$times$高速な推論速度を実現した。
- 参考スコア(独自算出の注目度): 29.342333234658682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction provides critical geometric and semantic understanding for robotics but faces efficiency-accuracy trade-offs. Current dense methods suffer computational waste on empty voxels, while sparse query-based approaches lack robustness in diverse and complex indoor scenes. In this paper, we propose DiScene, a novel sparse query-based framework that leverages multi-level distillation to achieve efficient and robust occupancy prediction. In particular, our method incorporates two key innovations: (1) a Multi-level Consistent Knowledge Distillation strategy, which transfers hierarchical representations from large teacher models to lightweight students through coordinated alignment across four levels, including encoder-level feature alignment, query-level feature matching, prior-level spatial guidance, and anchor-level high-confidence knowledge transfer and (2) a Teacher-Guided Initialization policy, employing optimized parameter warm-up to accelerate model convergence. Validated on the Occ-Scannet benchmark, DiScene achieves 23.2 FPS without depth priors while outperforming our baseline method, OPUS, by 36.1% and even better than the depth-enhanced version, OPUS†. With depth integration, DiScene† attains new SOTA performance, surpassing EmbodiedOcc by 3.7% with 1.62$\times$ faster inference speed. Furthermore, experiments on the Occ3D-nuScenes benchmark and in-the-wild scenarios demonstrate the versatility of our approach in various environments. Code and models can be accessed at https://github.com/getterupper/DiScene.
- Abstract(参考訳): 職業予測は、ロボット工学にとって重要な幾何学的および意味論的理解を提供するが、効率と精度のトレードオフに直面している。
現在の密集した手法は空のボクセルに計算上の無駄を被り、スパースクエリベースのアプローチは多様で複雑な屋内シーンでは堅牢性に欠ける。
本稿では,多層蒸留を利用して効率よく,かつロバストな占有率予測を実現する新しいスパースクエリベースのフレームワークであるDiSceneを提案する。
具体的には,(1)大規模教師モデルから軽量学生への階層的表現を,エンコーダレベルの特徴整合,クエリレベルの特徴整合,事前レベルの空間指導,アンカーレベルの高信頼度知識伝達,(2)モデル収束を加速するために最適化されたパラメータウォームアップを利用する教師誘導初期化ポリシという,2つの重要なイノベーションを取り入れた。
Occ-Scannetのベンチマークで検証されたDiSceneは、深さの前兆のない23.2FPSを達成し、ベースライン法であるOPUSを36.1%上回った。
ディープインテグレーションにより、DiSceneは新たなSOTAパフォーマンスを実現し、EmbodiedOccを3.7%上回り、1.62$\times$高速な推論速度を実現した。
さらに,Occ3D-nuScenesベンチマークと実環境シナリオを用いた実験により,様々な環境におけるアプローチの汎用性を示す。
コードとモデルはhttps://github.com/getterupper/DiScene.comからアクセスできる。
関連論文リスト
- Detect Anything via Next Point Prediction [51.55967987350882]
Rex-Omniは最先端の物体認識性能を実現する3BスケールのMLLMである。
COCOやLVISのようなベンチマークでは、Rex-Omniは回帰ベースのモデルに匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2025-10-14T17:59:54Z) - HYPERDOA: Robust and Efficient DoA Estimation using Hyperdimensional Computing [8.27483835715597]
超次元コンピューティング(HDC)を利用した新しい推定器であるHYPERDOAを紹介する。
低SNR、コヒーレントソースシナリオにおける最先端手法よりも35.39%高い精度を達成する。
また、組み込みNVIDIA Jetson Xavier NXプラットフォーム上の競合する神経ベースラインよりも93%少ないエネルギーを消費する。
論文 参考訳(メタデータ) (2025-10-12T17:42:01Z) - Multi-Level Optimal Transport for Universal Cross-Tokenizer Knowledge Distillation on Language Models [81.74999702045339]
マルチレベル最適輸送(MultiLevelOT)は、普遍的なクロストケナイザー知識蒸留のための最適な輸送を促進する新しいアプローチである。
本手法は,教師と生徒のロジット分布をトークンレベルとシーケンスレベルの両方で整列する。
トークンレベルでは、MultiLevelOTはグローバルとローカルの両方の情報を統合する。
論文 参考訳(メタデータ) (2024-12-19T04:51:06Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - HKNAS: Classification of Hyperspectral Imagery Based on Hyper Kernel
Neural Architecture Search [104.45426861115972]
設計したハイパーカーネルを利用して,構造パラメータを直接生成することを提案する。
我々は1次元または3次元の畳み込みを伴う画素レベルの分類と画像レベルの分類を別々に行う3種類のネットワークを得る。
6つの公開データセットに関する一連の実験は、提案手法が最先端の結果を得ることを示した。
論文 参考訳(メタデータ) (2023-04-23T17:27:40Z) - Boosting the Efficiency of Parametric Detection with Hierarchical Neural
Networks [4.1410005218338695]
高速検出のための新しい手法として階層型検出ネットワーク(HDN)を提案する。
ネットワークは、統計的精度と効率の目標を同時に符号化する新しい損失関数を用いて訓練される。
2層モデルを用いた3層HDNのトレーニングにより,精度と効率が向上することを示す。
論文 参考訳(メタデータ) (2022-07-23T19:23:00Z) - Point-to-Voxel Knowledge Distillation for LiDAR Semantic Segmentation [74.67594286008317]
本稿では,大きな教師モデルから,LiDARセマンティックセグメンテーションのためのスリムな学生ネットワークへの知識の抽出の問題に対処する。
本稿では,点レベルとボクセルレベルの両方から隠れた知識を伝達するPVDを提案する。
論文 参考訳(メタデータ) (2022-06-05T05:28:32Z) - Boosting RANSAC via Dual Principal Component Pursuit [24.942079487458624]
本稿では,強力な理論的支援と効率的なアルゴリズムを備えた頑健な部分空間学習手法としてDual principal Component Pursuit (DPCP)を紹介した。
2次元ホモグラフ、基本行列、基本行列、および3次元ホモグラフテンソルの推定実験は、我々のアプローチが最先端の代替よりも一貫して精度が高いことを示している。
論文 参考訳(メタデータ) (2021-10-06T17:04:45Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。