論文の概要: Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
- arxiv url: http://arxiv.org/abs/2507.06230v1
- Date: Tue, 08 Jul 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.44348
- Title: Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion
- Title(参考訳): 無管理セマンティックシーンコンプリートのためのフィードフォワードSceneDINO
- Authors: Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers,
- Abstract要約: 1つの入力画像が与えられた場合、SceneDINOは3D幾何学と表現的な3DDINO特徴をフィードフォワードで推測する。
3Dと2Dの両方の教師なしシーン理解では、SceneDINOは最先端のセグメンテーション精度に達する。
- 参考スコア(独自算出の注目度): 86.34232220368855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic scene completion (SSC) aims to infer both the 3D geometry and semantics of a scene from single images. In contrast to prior work on SSC that heavily relies on expensive ground-truth annotations, we approach SSC in an unsupervised setting. Our novel method, SceneDINO, adapts techniques from self-supervised representation learning and 2D unsupervised scene understanding to SSC. Our training exclusively utilizes multi-view consistency self-supervision without any form of semantic or geometric ground truth. Given a single input image, SceneDINO infers the 3D geometry and expressive 3D DINO features in a feed-forward manner. Through a novel 3D feature distillation approach, we obtain unsupervised 3D semantics. In both 3D and 2D unsupervised scene understanding, SceneDINO reaches state-of-the-art segmentation accuracy. Linear probing our 3D features matches the segmentation accuracy of a current supervised SSC approach. Additionally, we showcase the domain generalization and multi-view consistency of SceneDINO, taking the first steps towards a strong foundation for single image 3D scene understanding.
- Abstract(参考訳): セマンティックシーン補完(SSC)は,シーンの3次元幾何学と意味論の両方を単一画像から推測することを目的としている。
高価な接地構文アノテーションに大きく依存するSSCの先行研究とは対照的に,教師なし環境でSSCにアプローチする。
新たな手法であるSceneDINOは、自己教師付き表現学習と2次元教師なしシーン理解の技法をSSCに適用する。
我々のトレーニングは、意味論や幾何学的基底真理のいかなる形も使わずに、多視点一貫性の自己超越を専ら活用する。
1つの入力画像が与えられた場合、SceneDINOは3D幾何学と表現的な3DDINO特徴をフィードフォワードで推測する。
新規な3D特徴蒸留法により, 教師なし3Dセマンティクスが得られた。
3Dと2Dの両方の教師なしシーン理解では、SceneDINOは最先端のセグメンテーション精度に達する。
我々の3D特徴を線形探索することは、現在の教師付きSSCアプローチのセグメンテーション精度と一致する。
さらに,SceneDINOの領域一般化と多視点整合性を示すとともに,単一画像の3Dシーン理解のための強力な基盤に向けた第一歩を踏み出した。
関連論文リスト
- Fake It To Make It: Virtual Multiviews to Enhance Monocular Indoor Semantic Scene Completion [0.8669877024051931]
Indoor Semantic Scene Completionは、屋内シーンの単一のRGB画像から3Dセマンティック占有マップを再構築することを目的としている。
我々は、新しいビュー合成とマルチビュー融合を活用する革新的なアプローチを導入する。
我々は、NYUv2データセット上の既存のSSCネットワークと統合した場合、Scene Completionの最大2.8%、Semantic Scene Completionの4.9%のIoUスコアの改善を実証する。
論文 参考訳(メタデータ) (2025-03-07T02:09:38Z) - Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space [10.49905491984899]
問題を再定義し、3次元のボリュームを分割し、以下の方法を提案する。
従来の2Dピクセルの監督を代行する手法とは異なり、言語埋め込みフィールドをトレーニングするための3Dポイントを直接監督する。
学習した言語フィールドを3DGSに転送し、トレーニング時間や精度を犠牲にすることなく、最初のリアルタイムレンダリング速度を達成する。
論文 参考訳(メタデータ) (2024-08-14T09:50:02Z) - S4C: Self-Supervised Semantic Scene Completion with Neural Fields [54.35865716337547]
3Dセマンティックシーン理解はコンピュータビジョンにおける根本的な課題である。
SSCの現在の手法は、集約されたLiDARスキャンに基づいて、一般に3D地上真実に基づいて訓練されている。
本研究は,S4Cと呼ばれる3次元地上真理データに依存しないSSCに対して,初めての自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-11T14:19:05Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。