論文の概要: 3D sans 3D Scans: Scalable Pre-training from Video-Generated Point Clouds
- arxiv url: http://arxiv.org/abs/2512.23042v1
- Date: Sun, 28 Dec 2025 18:59:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.338455
- Title: 3D sans 3D Scans: Scalable Pre-training from Video-Generated Point Clouds
- Title(参考訳): 3Dが3Dスキャンを禁止:ビデオ生成のポイントクラウドからのスケーラブルな事前トレーニング
- Authors: Ryousuke Yamada, Kohsuke Ide, Yoshihiro Fukuhara, Hirokatsu Kataoka, Gilles Puy, Andrei Bursuc, Yuki M. Asano,
- Abstract要約: Sinkhorn-Knopp (Laplacian-Aware Multi-level 3D Clustering with Sinkhorn-Knopp (LAM3C) はビデオ生成点雲からラベルなしビデオから学習する自己教師型フレームワークである。
LAM3Cは、従来の屋内セマンティックスとインスタンスセグメンテーションの自己管理手法よりも高い性能を実現している。
- 参考スコア(独自算出の注目度): 47.955297989858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent progress in 3D self-supervised learning, collecting large-scale 3D scene scans remains expensive and labor-intensive. In this work, we investigate whether 3D representations can be learned from unlabeled videos recorded without any real 3D sensors. We present Laplacian-Aware Multi-level 3D Clustering with Sinkhorn-Knopp (LAM3C), a self-supervised framework that learns from video-generated point clouds from unlabeled videos. We first introduce RoomTours, a video-generated point cloud dataset constructed by collecting room-walkthrough videos from the web (e.g., real-estate tours) and generating 49,219 scenes using an off-the-shelf feed-forward reconstruction model. We also propose a noise-regularized loss that stabilizes representation learning by enforcing local geometric smoothness and ensuring feature stability under noisy point clouds. Remarkably, without using any real 3D scans, LAM3C achieves higher performance than the previous self-supervised methods on indoor semantic and instance segmentation. These results suggest that unlabeled videos represent an abundant source of data for 3D self-supervised learning.
- Abstract(参考訳): 近年の3次元自己監督学習の進歩にもかかわらず、大規模な3次元シーンスキャンの収集は高価であり、労働集約的である。
本研究では,実際の3Dセンサを使わずに記録されたラベルなしビデオから3D表現が学べるかどうかを検討する。
Sinkhorn-Knopp (Laplacian-Aware Multi-level 3D Clustering with Sinkhorn-Knopp (LAM3C) はビデオ生成点雲からラベルなしビデオから学習する自己教師型フレームワークである。
まず、Webからルームウォークスルービデオ(例えば、不動産ツアー)を収集し、オフザシェルフィードフォワード再構築モデルを用いて49,219のシーンを生成することで構築されたビデオ生成ポイントクラウドデータセットであるRoomToursを紹介した。
また、局所的な幾何学的滑らかさを強制し、ノイズの多い点雲の下で特徴安定性を確保することにより、表現学習を安定化する雑音規則化損失を提案する。
注目すべきは、実際の3Dスキャンを使わずに、LAM3Cは従来の屋内セマンティックスとインスタンスセグメンテーションの自己管理手法よりも高いパフォーマンスを達成することである。
これらの結果から,ラベルなしビデオは3次元自己教師型学習のための豊富なデータ源であることが示唆された。
関連論文リスト
- Locate 3D: Real-World Object Localization via Self-Supervised Learning in 3D [68.23391872643268]
LOCATE 3Dは「ソファーとランプの間の小さなコーヒーテーブル」のような表現から3Dシーンの物体をローカライズするモデルである
センサー・オブザーバ・ストリーム(RGB-Dフレームの配置)を直接操作し、ロボットやARデバイスへの現実世界の展開を可能にする。
論文 参考訳(メタデータ) (2025-04-19T02:51:24Z) - You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。
このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。
低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文 参考訳(メタデータ) (2024-12-09T17:44:56Z) - Learning 3D Representations from Procedural 3D Programs [6.915871213703219]
簡単なプリミティブと拡張を使って3次元形状を自動的に生成する手続き型3Dプログラムから3次元表現を学習する。
注目すべきは、手続き的に生成された3D形状から得られた3D表現は、意味的に認識可能な3Dモデルから学んだ最先端の3D表現と同等に実行されることである。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Unsupervised Volumetric Animation [54.52012366520807]
非剛性変形物体の教師なし3次元アニメーションのための新しい手法を提案する。
本手法は,RGBビデオのみからオブジェクトの3次元構造とダイナミックスを学習する。
我々は,本モデルを用いて,単一ボリュームまたは少数の画像からアニマタブルな3Dオブジェクトを得ることができることを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。