論文の概要: SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels
- arxiv url: http://arxiv.org/abs/2505.22461v2
- Date: Thu, 29 May 2025 14:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.799321
- Title: SHTOcc: Effective 3D Occupancy Prediction with Sparse Head and Tail Voxels
- Title(参考訳): SHTOcc:スパークヘッドとタイルボクセルを用いた3次元活動予測
- Authors: Qiucheng Yu, Yuan Xie, Xin Tan,
- Abstract要約: 3Dの占有率予測は、自動運転の分野で大きな注目を集めている。
従来は、ボクセルの最も重要な分布パターンを探索しなかったため、不満足な結果となった。
本稿では,スパースヘッドテールボクセル構造を用いて,頭部と尾部のキーボクセルを正確に同定し,バランスをとるSHTOccを提案する。
- 参考スコア(独自算出の注目度): 21.527372150135335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D occupancy prediction has attracted much attention in the field of autonomous driving due to its powerful geometric perception and object recognition capabilities. However, existing methods have not explored the most essential distribution patterns of voxels, resulting in unsatisfactory results. This paper first explores the inter-class distribution and geometric distribution of voxels, thereby solving the long-tail problem caused by the inter-class distribution and the poor performance caused by the geometric distribution. Specifically, this paper proposes SHTOcc (Sparse Head-Tail Occupancy), which uses sparse head-tail voxel construction to accurately identify and balance key voxels in the head and tail classes, while using decoupled learning to reduce the model's bias towards the dominant (head) category and enhance the focus on the tail class. Experiments show that significant improvements have been made on multiple baselines: SHTOcc reduces GPU memory usage by 42.2%, increases inference speed by 58.6%, and improves accuracy by about 7%, verifying its effectiveness and efficiency. The code is available at https://github.com/ge95net/SHTOcc
- Abstract(参考訳): 3D占有率予測は、その強力な幾何学的知覚と物体認識能力により、自律運転の分野で大きな注目を集めている。
しかし、既存の方法ではボクセルの最も必須な分布パターンを探索していないため、不満足な結果となった。
本稿ではまず, ボクセルのクラス間分布と幾何学的分布について検討し, クラス間分布による長テール問題と幾何学的分布による性能の低下を解決した。
具体的には,Sparse Head-Tail Occupancy を用いた SHTOcc (Sparse Head-Tail Occupancy) を提案する。
SHTOccはGPUメモリ使用量を42.2%削減し、推論速度を58.6%向上し、精度を約7%向上し、その有効性と効率を検証した。
コードはhttps://github.com/ge95net/SHTOccで公開されている。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - ShapeSplat: A Large-scale Dataset of Gaussian Splats and Their Self-Supervised Pretraining [104.34751911174196]
ShapeNetとModelNetを用いた大規模3DGSデータセットを構築した。
データセットのShapeSplatは、87のユニークなカテゴリから65Kのオブジェクトで構成されています。
textbftextitGaussian-MAEを導入し、ガウスパラメータからの表現学習の独特な利点を強調した。
論文 参考訳(メタデータ) (2024-08-20T14:49:14Z) - HyCubE: Efficient Knowledge Hypergraph 3D Circular Convolutional Embedding [21.479738859698344]
モデルの有効性と効率のトレードオフに達するためには、知識ハイパーグラフの埋め込みが望ましいし、難しい。
本稿では,新しい3次元円形畳み込みニューラルネットワークを設計した,エンドツーエンドの知識ハイパーグラフ埋め込みモデルHyCubEを提案する。
提案手法は, 平均8.22%, 最大33.82%の改善により, 常に最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-02-14T06:05:37Z) - Geometric Prior Guided Feature Representation Learning for Long-Tailed Classification [47.09355487357069]
そこで,本論文では,よく表現されたヘッドクラスの特徴分布の幾何学的情報を活用し,モデルにテールクラスの基盤となる分布を学習させる手法を提案する。
パータード機能は、可能な限りテールクラスの基盤となる分布をカバーし、テスト領域におけるモデルの一般化性能を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-01-21T09:16:29Z) - Class-Imbalanced Semi-Supervised Learning for Large-Scale Point Cloud
Semantic Segmentation via Decoupling Optimization [64.36097398869774]
半教師付き学習(SSL)は大規模3Dシーン理解のための活発な研究課題である。
既存のSSLベースのメソッドは、クラス不均衡とポイントクラウドデータのロングテール分布による厳しいトレーニングバイアスに悩まされている。
本稿では,特徴表現学習と分類器を別の最適化方法で切り離してバイアス決定境界を効果的にシフトする,新しいデカップリング最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-13T04:16:40Z) - Feature Fusion from Head to Tail for Long-Tailed Visual Recognition [39.86973663532936]
テールクラスにおけるセマンティック情報の不十分に起因するバイアスのある決定境界は、認識精度の低下に寄与する重要な要因の1つである。
我々は,H2T(head-to-tail fusion)と呼ばれるヘッドクラスから多様な意味情報を移植することで,テールクラスを増強することを提案する。
理論的解析と実用実験の両方で、H2Tが決定境界に対してより最適化された解に寄与できることが示されている。
論文 参考訳(メタデータ) (2023-06-12T08:50:46Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。