Fugu-MT 論文翻訳(概要): Not All Voxels Are Equal: Hardness-Aware Semantic Scene Completion with Self-Distillation

論文の概要: Not All Voxels Are Equal: Hardness-Aware Semantic Scene Completion with Self-Distillation

arxiv url: http://arxiv.org/abs/2404.11958v1
Date: Thu, 18 Apr 2024 07:25:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-19 19:31:17.729315
Title: Not All Voxels Are Equal: Hardness-Aware Semantic Scene Completion with Self-Distillation
Title（参考訳）: すべてのボクセルが等しくはない: 自己蒸留による難易度を意識したセマンティックなシーンコンプリート
Authors: Song Wang, Jiawei Yu, Wentong Li, Wenyu Liu, Xiaolu Liu, Junbo Chen, Jianke Zhu,
Abstract要約: セマンティックコンプリート(セマンティックコンプリート、セマンティックコンプリート、セマンティックコンプリート、セマンティックコンプリート、セマンティックコンプリート)は、自動運転車に密集した幾何学的およびセマンティック情報を提供する。既存の方法は通常、ボクセルの分類問題を定式化し、訓練中に各ボクセルを等しく扱う。本稿では,シーンモデルを訓練するためのHアプローチを提案する。
参考スコア（独自算出の注目度）: 23.85582400264946
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic scene completion, also known as semantic occupancy prediction, can provide dense geometric and semantic information for autonomous vehicles, which attracts the increasing attention of both academia and industry. Unfortunately, existing methods usually formulate this task as a voxel-wise classification problem and treat each voxel equally in 3D space during training. As the hard voxels have not been paid enough attention, the performance in some challenging regions is limited. The 3D dense space typically contains a large number of empty voxels, which are easy to learn but require amounts of computation due to handling all the voxels uniformly for the existing models. Furthermore, the voxels in the boundary region are more challenging to differentiate than those in the interior. In this paper, we propose HASSC approach to train the semantic scene completion model with hardness-aware design. The global hardness from the network optimization process is defined for dynamical hard voxel selection. Then, the local hardness with geometric anisotropy is adopted for voxel-wise refinement. Besides, self-distillation strategy is introduced to make training process stable and consistent. Extensive experiments show that our HASSC scheme can effectively promote the accuracy of the baseline model without incurring the extra inference cost. Source code is available at: https://github.com/songw-zju/HASSC.
Abstract（参考訳）: セマンティック・シーン・コンプリーメント(セマンティック・シーン・コンプリーメント)は、セマンティック・シーン・コンプリーメント(セマンティック・コンプリーメント・コンプリーメント)としても知られており、自動運転車に密集した幾何学的およびセマンティックな情報を提供し、アカデミックと産業の両方の注目を集めている。残念ながら、既存の手法は通常、このタスクをボクセルの分類問題として定式化し、訓練中に各ボクセルを等しく3次元空間で扱う。ハードボクセルには十分な注意が払われていないため、いくつかの挑戦的な地域でのパフォーマンスは限られている。 3次元密度空間は通常、多くの空のボクセルを含むが、これは学習が容易であるが、既存のモデルに対して全てのボクセルを均一に扱うため、大量の計算を必要とする。さらに、境界領域のボクセルは、内部のボクセルよりも区別が難しい。本稿では, 難易度を考慮したシーン補完モデルを学習するためのHASSC手法を提案する。ネットワーク最適化プロセスのグローバルな硬さは、動的ハードボクセル選択のために定義される。次に、ボクセルワイド精製に幾何異方性を有する局所硬度を用いる。さらに、トレーニングプロセスを安定し、一貫性を持たせるための自己蒸留戦略も導入されている。大規模な実験により,HASSC方式は,余分な推論コストを伴わずに,ベースラインモデルの精度を効果的に向上できることが示された。ソースコードは、https://github.com/songw-zju/HASSC.comで入手できる。

関連論文リスト

VoxDet: Rethinking 3D Semantic Occupancy Prediction as Dense Object Detection [67.09867723723934]
3Dのセマンティック占有予測は,周囲環境の3D形状とセマンティックスを再構築することを目的としている。密接なボクセルラベルでは、以前の研究は通常、これを密接なセグメンテーションタスクとして定式化し、それぞれのボクセルを独立に分類する。本稿では,Voxelレベルの占有率予測を高密度オブジェクト検出として再構成する,インスタンス中心のフレームワークであるVoxDetを提案する。
論文参考訳（メタデータ） (2025-06-05T04:31:55Z)
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文参考訳（メタデータ） (2025-03-20T20:58:48Z)
Towards 3D Semantic Scene Completion for Autonomous Driving: A Meta-Learning Framework Empowered by Deformable Large-Kernel Attention and Mamba Model [1.6835437621159244]
セマンティックシーン補完(SSC)のためのメタラーニングに基づく新しいフレームワークであるMetaSSCを紹介する。我々のアプローチは、不完全領域のセマンティックスと幾何学を探求することを目的とした、ボクセルに基づくセマンティックセマンティックセマンティクス(SS)事前訓練タスクから始まる。シミュレーションされた協調認識データセットを用いて、集約されたセンサデータを用いて1台の車両の知覚訓練を監督する。このメタ知識は、二重フェーズのトレーニング戦略を通じてターゲットドメインに適応し、効率的なデプロイメントを可能にする。
論文参考訳（メタデータ） (2024-11-06T05:11:25Z)
OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。 OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文参考訳（メタデータ） (2024-09-14T07:44:22Z)
Collaborative Static-Dynamic Teaching: A Semi-Supervised Framework for Stripe-Like Space Target Detection [2.9133687889451023]
Stripeのような宇宙ターゲット検出は、宇宙の状況認識に不可欠である。従来の教師なし手法は、低信号対雑音比と可変ストライプのような空間ターゲットシナリオで失敗することが多い。我々は,静的および動的教師モデルと学生モデルを含む,革新的な協調静的動的教師(CSDT)SSLフレームワークを導入する。また,マルチスケールデュアルパス畳み込み(MDPC)ブロックと特徴マップ重み付き注目(FMWA)ブロックを備えた新しいSSTDネットワークであるMSSA-Netを提案する。
論文参考訳（メタデータ） (2024-08-09T12:33:27Z)
GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。 GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文参考訳（メタデータ） (2024-05-27T18:57:18Z)
Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。 SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文参考訳（メタデータ） (2023-12-10T04:17:27Z)
S4C: Self-Supervised Semantic Scene Completion with Neural Fields [54.35865716337547]
3Dセマンティックシーン理解はコンピュータビジョンにおける根本的な課題である。 SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。本研究は,S4Cと呼ばれる3次元地上真理データに依存しないSSCに対して,初めての自己教師型アプローチを提案する。
論文参考訳（メタデータ） (2023-10-11T14:19:05Z)
Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction [142.61256012419562]
本稿では,ボクセルをベースとした表面再構成手法であるVoxurfを提案する。ボクサーフは,(1)コヒーレントな粗い形状を達成し,細部を連続的に再現する2段階の訓練手順,2)色-幾何学的依存性を維持する2色ネットワーク,3)ボクセル間の情報伝達を促進する階層的幾何学的特徴などを通じて,上記の課題に対処する。
論文参考訳（メタデータ） (2022-08-26T14:48:02Z)
Towards Full-to-Empty Room Generation with Structure-Aware Feature Encoding and Soft Semantic Region-Adaptive Normalization [67.64622529651677]
本稿では,ソフトセマンティックな領域適応正規化モジュール (softSEAN) ブロックを提案する。我々のアプローチは、トレーニングの複雑さと非微分可能性の問題を緩和することの利点の他に、比較した手法を量的にも質的にも上回っている。我々のSoftSEANブロックは、既存の識別および生成モデルのためのドロップインモジュールとして使用することができる。
論文参考訳（メタデータ） (2021-12-10T09:00:13Z)
Momentum Contrastive Voxel-wise Representation Learning for Semi-supervised Volumetric Medical Image Segmentation [2.3322477552758234]
医用画像セグメンテーションのためのグローバルな視覚表現を学習するための幾何学的制約付きコントラストVoxel-wise Representation(CVRL)法を提案する。このフレームワークは,3次元空間的コンテキストと豊かな解剖学的情報をキャプチャすることで,グローバルおよびローカルな特徴を効果的に学習することができる。
論文参考訳（メタデータ） (2021-05-14T20:27:23Z)
3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文参考訳（メタデータ） (2020-03-31T09:33:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。