論文の概要: YouTube-Occ: Learning Indoor 3D Semantic Occupancy Prediction from YouTube Videos
- arxiv url: http://arxiv.org/abs/2506.18266v1
- Date: Mon, 23 Jun 2025 03:44:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.834444
- Title: YouTube-Occ: Learning Indoor 3D Semantic Occupancy Prediction from YouTube Videos
- Title(参考訳): YouTube-Occ: 屋内の3Dセマンティックな職業予測をYouTubeビデオから学ぶ
- Authors: Haoming Chen, Lichen Yuan, TianFang Sun, Jingyu Gong, Xin Tan, Zhizhong Zhang, Yuan Xie,
- Abstract要約: 本稿では,屋内インターネットデータのみを用いて3次元空間的精度のトレーニングを行うことを実証する。
我々は、強力な3次元屋内知覚に到達するために、アクセス可能な2次元事前知識を活用するために、完全に自己教師付きモデルを構築した。
- 参考スコア(独自算出の注目度): 27.030960281969865
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: 3D semantic occupancy prediction in the past was considered to require precise geometric relationships in order to enable effective training. However, in complex indoor environments, the large-scale and widespread collection of data, along with the necessity for fine-grained annotations, becomes impractical due to the complexity of data acquisition setups and privacy concerns. In this paper, we demonstrate that 3D spatially-accurate training can be achieved using only indoor Internet data, without the need for any pre-knowledge of intrinsic or extrinsic camera parameters. In our framework, we collect a web dataset, YouTube-Occ, which comprises house tour videos from YouTube, providing abundant real house scenes for 3D representation learning. Upon on this web dataset, we establish a fully self-supervised model to leverage accessible 2D prior knowledge for reaching powerful 3D indoor perception. Specifically, we harness the advantages of the prosperous vision foundation models, distilling the 2D region-level knowledge into the occupancy network by grouping the similar pixels into superpixels. Experimental results show that our method achieves state-of-the-art zero-shot performance on two popular benchmarks (NYUv2 and OccScanNet
- Abstract(参考訳): 過去の3次元意味的占有予測は, 効果的なトレーニングを実現するためには, 正確な幾何学的関係が必要であると考えられた。
しかし、複雑な屋内環境では、データの大規模かつ広範囲な収集は、詳細なアノテーションを必要とするとともに、データ取得のセットアップやプライバシーの懸念が複雑になるため、現実的ではない。
本稿では,内在型・外在型カメラパラメータの事前知識を必要とせずに,屋内インターネットデータのみを用いて3次元空間的精度のトレーニングを実現できることを示す。
このフレームワークでは,WebデータセットであるYouTube-Occを収集し,YouTubeのハウスツアービデオから3D表現学習のための豊富な実家シーンを提供する。
このWebデータセットに基づいて、アクセス可能な2D事前知識を活用して、強力な3D屋内知覚に到達するための完全自己教師モデルを構築します。
具体的には,2次元領域レベルの知識を,類似の画素をスーパーピクセルにグループ化することで占有ネットワークに蒸留することで,繁栄する視覚基盤モデルの利点を利用する。
実験結果から,2つのベンチマーク(NYUv2とOccScanNet)上での最先端ゼロショット性能が得られた。
関連論文リスト
- Weak Cube R-CNN: Weakly Supervised 3D Detection using only 2D Bounding Boxes [5.492174268132387]
3Dオブジェクト検出器は通常、完全に教師された方法で訓練され、3Dラベル付きデータに大きく依存する。
この研究は、モノクラー法によるデータ要求を減らすために、弱教師付き3D検出に焦点を当てている。
本稿では,3次元の物体を推定時に予測できる一般モデルWeak Cube R-CNNを提案する。
論文 参考訳(メタデータ) (2025-04-17T19:13:42Z) - Open-Vocabulary High-Resolution 3D (OVHR3D) Data Segmentation and Annotation Framework [1.1280113914145702]
本研究の目的は,3次元セグメンテーションタスクのための包括的で効率的なフレームワークの設計と開発である。
このフレームワークはGrounding DINOとSegment Any Modelを統合し、3Dメッシュによる2D画像レンダリングの強化によって強化される。
論文 参考訳(メタデータ) (2024-12-09T07:39:39Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。