論文の概要: EasyOcc: 3D Pseudo-Label Supervision for Fully Self-Supervised Semantic Occupancy Prediction Models
- arxiv url: http://arxiv.org/abs/2509.26087v1
- Date: Tue, 30 Sep 2025 11:01:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.109194
- Title: EasyOcc: 3D Pseudo-Label Supervision for Fully Self-Supervised Semantic Occupancy Prediction Models
- Title(参考訳): EasyOcc:完全自己監督型セマンティック動作予測モデルのための3次元擬似ラベルスーパービジョン
- Authors: Seamie Hayes, Ganesh Sistu, Ciarán Eising,
- Abstract要約: 自己監督モデルは最近、特に意味的占有率予測の領域において顕著な進歩を遂げている。
これらのモデルは、基底構造ラベルの欠如を補うために洗練された損失計算戦略を利用する。
基礎モデルである Grounded-SAM と Metric3Dv2 が生成する3次元擬似地下構造ラベルを提案し,時間情報を用いてラベルの密度化を行う。
- 参考スコア(独自算出の注目度): 4.347156881555099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised models have recently achieved notable advancements, particularly in the domain of semantic occupancy prediction. These models utilize sophisticated loss computation strategies to compensate for the absence of ground-truth labels. For instance, techniques such as novel view synthesis, cross-view rendering, and depth estimation have been explored to address the issue of semantic and depth ambiguity. However, such techniques typically incur high computational costs and memory usage during the training stage, especially in the case of novel view synthesis. To mitigate these issues, we propose 3D pseudo-ground-truth labels generated by the foundation models Grounded-SAM and Metric3Dv2, and harness temporal information for label densification. Our 3D pseudo-labels can be easily integrated into existing models, which yields substantial performance improvements, with mIoU increasing by 45\%, from 9.73 to 14.09, when implemented into the OccNeRF model. This stands in contrast to earlier advancements in the field, which are often not readily transferable to other architectures. Additionally, we propose a streamlined model, EasyOcc, achieving 13.86 mIoU. This model conducts learning solely from our labels, avoiding complex rendering strategies mentioned previously. Furthermore, our method enables models to attain state-of-the-art performance when evaluated on the full scene without applying the camera mask, with EasyOcc achieving 7.71 mIoU, outperforming the previous best model by 31\%. These findings highlight the critical importance of foundation models, temporal context, and the choice of loss computation space in self-supervised learning for comprehensive scene understanding.
- Abstract(参考訳): 自己監督モデルは最近、特に意味的占有率予測の領域において顕著な進歩を遂げている。
これらのモデルは、基底構造ラベルの欠如を補うために洗練された損失計算戦略を利用する。
例えば、新しいビュー合成、クロスビューレンダリング、深さ推定といった手法は、意味と深さのあいまいさの問題に対処するために研究されている。
しかし、このような技術は、特に新しいビュー合成の場合、トレーニング段階で高い計算コストとメモリ使用量をもたらすのが一般的である。
これらの問題を緩和するために, 基礎モデルであるgrounded-SAM と Metric3Dv2 によって生成された3次元擬似地下構造ラベルを提案し, ラベルの密度化に時間的情報を利用する。
OccNeRFモデルに実装した場合、mIoUは9.73から14.09に45\%増加し、既存のモデルに容易に3D擬似ラベルを組み込むことができる。
これは、フィールドの初期の進歩とは対照的であり、しばしば他のアーキテクチャに簡単に転送できない。
さらに,13.86 mIoU を達成するための合理化モデル EasyOcc を提案する。
このモデルはラベルからのみ学習を行い、前述の複雑なレンダリング戦略を避けます。
さらに,本手法により,カメラマスクを施すことなく,全シーンで評価を行うことができ,従来最高のモデルよりも31倍高い7.71mIoUを実現した。
これらの知見は、総合的なシーン理解のための自己教師型学習における基礎モデル、時間的文脈、損失計算空間の選択の重要性を浮き彫りにした。
関連論文リスト
- DINOv3 [62.31809406012177]
自己教師型学習は、手動データアノテーションの必要性を排除し、巨大なデータセットやより大きなアーキテクチャにモデルを集中的にスケールできるようにするという約束を守ります。
この技術レポートでは、シンプルだが効果的な戦略を活用することで、このビジョンを実現するための大きなマイルストーンであるDINOv3を紹介します。
DINOv3は高品位な高精細な特徴を生み出し、様々な視覚タスクにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-08-13T18:00:55Z) - Improving Object Detection by Modifying Synthetic Data with Explainable AI [3.0519884745675485]
本稿では,合成画像の設計効率を向上させるための新しい概念的アプローチを提案する。
XAI技術は、これらの画像を生成するために使用される3Dメッシュモデルを修正する、ループ中の人間プロセスを導く。
合成データは、トレーニング中に見えない方向の車両の検出を4.6%改善できることを示す。
論文 参考訳(メタデータ) (2024-12-02T13:24:43Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。