論文の概要: Chorus: Multi-Teacher Pretraining for Holistic 3D Gaussian Scene Encoding
- arxiv url: http://arxiv.org/abs/2512.17817v2
- Date: Mon, 22 Dec 2025 02:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 14:49:56.341509
- Title: Chorus: Multi-Teacher Pretraining for Holistic 3D Gaussian Scene Encoding
- Title(参考訳): Chorus: ホロスティックな3Dガウスシーンエンコーディングのためのマルチ教師プレトレーニング
- Authors: Yue Li, Qi Ma, Runyi Yang, Mengjiao Ma, Bin Ren, Nikola Popovic, Nicu Sebe, Theo Gevers, Luc Van Gool, Danda Pani Paudel, Martin R. Oswald,
- Abstract要約: 今回,Chorusを紹介した。Chorusは,総合的なフィードフォワード3Dガウススプラッティング(3DGS)シーンエンコーダを学習するマルチ教師事前学習フレームワークである。
Chorusは3Dエンコーダと教師固有のプロジェクターを共用し、言語、ジェネラリスト、そしてオブジェクト指向の教師から学ぶ。
- 参考スコア(独自算出の注目度): 106.02359083803555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While 3DGS has emerged as a high-fidelity scene representation, encoding rich, general-purpose features directly from its primitives remains under-explored. We address this gap by introducing Chorus, a multi-teacher pretraining framework that learns a holistic feed-forward 3D Gaussian Splatting (3DGS) scene encoder by distilling complementary signals from 2D foundation models. Chorus employs a shared 3D encoder and teacher-specific projectors to learn from language-aligned, generalist, and object-aware teachers, encouraging a shared embedding space that captures signals from high-level semantics to fine-grained structure. We evaluate Chorus on a wide range of tasks: open-vocabulary semantic and instance segmentation, linear and decoder probing, as well as data-efficient supervision. Besides 3DGS, we also test Chorus on several benchmarks that only support point clouds by pretraining a variant using only Gaussians' centers, colors, estimated normals as inputs. Interestingly, this encoder shows strong transfer and outperforms the point clouds baseline while using 39.9 times fewer training scenes. Finally, we propose a render-and-distill adaptation that facilitates out-of-domain finetuning. Our code and model will be released upon publication.
- Abstract(参考訳): 3DGSは、高忠実なシーン表現として登場したが、そのプリミティブから直接、リッチで汎用的な機能をエンコードすることは、まだ探索されていない。
このギャップに対処するため,Chorusは,2次元基礎モデルから補完信号を抽出し,総合的なフィードフォワード3Dガウス・スプレイティング(3DGS)シーンエンコーダを学習するマルチ教師事前学習フレームワークである。
Chorusは3Dエンコーダと教師固有のプロジェクタを共用して、言語、ジェネラリスト、およびオブジェクト指向の教師から学び、ハイレベルなセマンティクスから微細な構造まで信号をキャプチャする共有埋め込みスペースを奨励している。
オープンボキャブラリセマンティックとインスタンスセグメンテーション,線形およびデコーダ探索,データ効率の監視など,幅広いタスクでChorusを評価する。
3DGS以外にも、ガウス中心、色、推定正規値を入力として使用する変種を事前訓練することで、点雲のみをサポートするいくつかのベンチマークでChorusをテストする。
興味深いことに、このエンコーダは強い転送を示し、39.9倍のトレーニングシーンを使用しながら点雲のベースラインを上回っている。
最後に,ドメイン外ファインタニングを容易にするレンダリング・アンド・ディスティル適応を提案する。
私たちのコードとモデルは出版時にリリースされます。
関連論文リスト
- GaussianVLM: Scene-centric 3D Vision-Language Models using Language-aligned Gaussian Splats for Embodied Reasoning and Beyond [56.677984098204696]
マルチモーダル言語モデルは、VLM(3D Vision-Language Models)の開発を推進している
本稿では,言語とタスク認識のシーン表現を用いた3次元ガウシアンスプラットシーンのためのシーン中心の3次元VLMを提案する。
本稿では,標準RGB画像から導出した光リアルな3D表現を利用した最初のガウススプラッティングに基づくVLMを提案する。
論文 参考訳(メタデータ) (2025-07-01T15:52:59Z) - Gaussian2Scene: 3D Scene Representation Learning via Self-supervised Learning with 3D Gaussian Splatting [6.678115792482272]
ポイントクラウドの事前トレーニングのための自己教師付き学習(SSL)は、多くの3Dビジョンタスクの基盤となっている。
本稿では,3次元ガウススティング(3DGS)の効率性と明示性を事前学習に活用する,シーンレベルのSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T13:19:21Z) - CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting [88.24743308058441]
3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。
我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
論文 参考訳(メタデータ) (2024-12-26T09:54:25Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。