論文の概要: Rebenchmarking Unsupervised Monocular 3D Occupancy Prediction
- arxiv url: http://arxiv.org/abs/2602.06488v1
- Date: Fri, 06 Feb 2026 08:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.298018
- Title: Rebenchmarking Unsupervised Monocular 3D Occupancy Prediction
- Title(参考訳): 教師なし単眼3D活動予測の再検討
- Authors: Zizhan Guo, Yi Feng, Mengtan Zhang, Haoran Zhang, Wei Ye, Rui Fan,
- Abstract要約: 単一の画像から、特に隠された領域から3D構造を推定することは、視覚中心の自律運転において、根本的な課題でありながら未解決の課題である。
既存の教師なしアプローチは、通常、神経放射場を訓練し、評価中にネットワーク出力を占有確率として扱う。
本稿では,教師なし単分子3次元占有予測のための改良されたベンチマークを提案する。
- 参考スコア(独自算出の注目度): 18.187675837847667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring the 3D structure from a single image, particularly in occluded regions, remains a fundamental yet unsolved challenge in vision-centric autonomous driving. Existing unsupervised approaches typically train a neural radiance field and treat the network outputs as occupancy probabilities during evaluation, overlooking the inconsistency between training and evaluation protocols. Moreover, the prevalent use of 2D ground truth fails to reveal the inherent ambiguity in occluded regions caused by insufficient geometric constraints. To address these issues, this paper presents a reformulated benchmark for unsupervised monocular 3D occupancy prediction. We first interpret the variables involved in the volume rendering process and identify the most physically consistent representation of the occupancy probability. Building on these analyses, we improve existing evaluation protocols by aligning the newly identified representation with voxel-wise 3D occupancy ground truth, thereby enabling unsupervised methods to be evaluated in a manner consistent with that of supervised approaches. Additionally, to impose explicit constraints in occluded regions, we introduce an occlusion-aware polarization mechanism that incorporates multi-view visual cues to enhance discrimination between occupied and free spaces in these regions. Extensive experiments demonstrate that our approach not only significantly outperforms existing unsupervised approaches but also matches the performance of supervised ones. Our source code and evaluation protocol will be made available upon publication.
- Abstract(参考訳): 単一の画像から、特に隠された領域から3D構造を推定することは、視覚中心の自律運転において、根本的な課題でありながら未解決の課題である。
既存の教師なしアプローチは、通常、神経放射場を訓練し、トレーニングと評価プロトコルの不整合を見越して、評価中にネットワーク出力を占有確率として扱う。
さらに、2次元基底真理の一般的な利用は、幾何的制約が不十分なため、閉鎖された領域に固有の曖昧さを明らかにすることに失敗する。
これらの問題に対処するため,本研究では,教師なし単分子3次元占有予測のための改良されたベンチマークを提案する。
まず、ボリュームレンダリングプロセスに関わる変数を解釈し、占有確率の最も物理的に一貫した表現を同定する。
これらの分析に基づいて,新たに同定された表現をボクセル単位の3次元接地真実に整合させることにより,既存の評価プロトコルを改良し,教師なし手法を教師なし手法と整合して評価できるようにする。
さらに,隠蔽領域に明示的な制約を課すため,これらの領域における占有空間と自由空間の識別を高めるために,多視点視覚的手がかりを取り入れたオクルージョン対応偏光機構を導入する。
大規模な実験により、我々のアプローチは既存の教師なしアプローチよりも大幅に優れるだけでなく、教師なしアプローチのパフォーマンスに匹敵することを示した。
ソースコードと評価プロトコルを公開時に公開します。
関連論文リスト
- VOIC: Visible-Occluded Decoupling for Monocular 3D Semantic Scene Completion [6.144392125326462]
カメラベースのセマンティックシーンコンプリートは、自律走行とロボットシーン理解にとって重要なタスクである。
既存の方法は、通常、エンドツーエンドの2D-to-3D機能リフトとボクセル補完に焦点を当てている。
本稿では,SSCを視覚領域の意味認識と隠蔽領域のシーン補完に明示的に分離する新しいデュアルデコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-22T02:05:45Z) - SE(3)-PoseFlow: Estimating 6D Pose Distributions for Uncertainty-Aware Robotic Manipulation [21.433019604658366]
本稿では,SE(3)多様体上のフローマッチングを利用して6次元オブジェクトのポーズ分布を推定する新しい確率的フレームワークを提案する。
我々はReal275、YCB-V、LM-Oの最先端の成果を達成し、下流ロボット操作タスクにおいてサンプルベースのポーズ推定がどのように活用できるかを実証した。
論文 参考訳(メタデータ) (2025-11-03T12:11:35Z) - Enhancing Dual Network Based Semi-Supervised Medical Image Segmentation with Uncertainty-Guided Pseudo-Labeling [5.1962665598872135]
本稿では,デュアルネットワークアーキテクチャに基づく新しい半教師付き3次元医用画像分割フレームワークを提案する。
具体的には,クロス・擬似とエントロピーフィルタの両方を用いたクロス・コンシステンシー・エンハンスメント・モジュールについて検討し,ノイズの多い擬似ラベルを減らす。
さらに、教師付きコントラスト学習機構を用いて、不確実なボクセル特徴を信頼性の高いクラスプロトタイプと整合させる。
論文 参考訳(メタデータ) (2025-09-16T13:40:20Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - Object Affordance Recognition and Grounding via Multi-scale Cross-modal Representation Learning [64.32618490065117]
Embodied AIの中核的な問題は、人間がしているように、観察からオブジェクト操作を学ぶことだ。
本稿では,3D表現の可利用性を学習し,段階的推論戦略を採用する新しい手法を提案する。
提案手法の有効性を実証し,アベイランスグラウンドと分類の両面での性能向上を示した。
論文 参考訳(メタデータ) (2025-08-02T04:14:18Z) - Zero-P-to-3: Zero-Shot Partial-View Images to 3D Object [55.93553895520324]
そこで本研究では,局所的な高密度観測と複数ソースの事前情報を統合した学習自由手法を提案する。
本手法では, DDIMサンプリングにおいて, これらの先行情報を効果的に整合させる融合方式を導入し, 多視点一貫した画像を生成し, 見えない視界を監督する。
論文 参考訳(メタデータ) (2025-05-29T03:51:37Z) - ORA3D: Overlap Region Aware Multi-view 3D Object Detection [11.58746596768273]
現在の多視点3Dオブジェクト検出法は、しばしば重なり合う領域のオブジェクトを適切に検出できない。
本稿では,(1)弱深度スーパービジョンのステレオ異方性推定と(2)適応オーバーラップ領域判別器の2つの主要なモジュールを提案する。
提案手法は,現在の最先端モデル,すなわちDETR3DとBEVDetより優れている。
論文 参考訳(メタデータ) (2022-07-02T15:28:44Z) - On Triangulation as a Form of Self-Supervision for 3D Human Pose
Estimation [57.766049538913926]
ラベル付きデータが豊富である場合, 単一画像からの3次元ポーズ推定に対する改良されたアプローチは, 極めて効果的である。
最近の注目の多くは、セミと(あるいは)弱い教師付き学習に移行している。
本稿では,多視点の幾何学的制約を,識別可能な三角測量を用いて課し,ラベルがない場合の自己監督の形式として用いることを提案する。
論文 参考訳(メタデータ) (2022-03-29T19:11:54Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。