論文の概要: Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
- arxiv url: http://arxiv.org/abs/2510.23607v1
- Date: Mon, 27 Oct 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.667076
- Title: Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations
- Title(参考訳): 協奏曲 共同2D-3D自己監督学習の空間表現
- Authors: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao,
- Abstract要約: 協奏曲は空間認知のための人間の概念学習の最小限のシミュレーションである。
3次元の自己蒸留と2D-3Dのクロスモーダルな関節埋め込みを組み合わせる。
スタンドアローンのSOTA 2Dと3Dの自己監督モデルより優れています。
- 参考スコア(独自算出の注目度): 73.41898499359313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans learn abstract concepts through multisensory synergy, and once formed, such representations can often be recalled from a single modality. Inspired by this principle, we introduce Concerto, a minimalist simulation of human concept learning for spatial cognition, combining 3D intra-modal self-distillation with 2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more coherent and informative spatial features, as demonstrated by zero-shot visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised models by 14.2% and 4.8%, respectively, as well as their feature concatenation, in linear probing for 3D scene perception. With full fine-tuning, Concerto sets new SOTA results across multiple scene understanding benchmarks (e.g., 80.7% mIoU on ScanNet). We further present a variant of Concerto tailored for video-lifted point cloud spatial understanding, and a translator that linearly projects Concerto representations into CLIP's language space, enabling open-world perception. These results highlight that Concerto emerges spatial representations with superior fine-grained geometric and semantic consistency.
- Abstract(参考訳): 人間は多感覚のシナジーを通して抽象概念を学び、一度形成されると、そのような表現は単一のモダリティからしばしば呼び戻される。
この原理に触発されて,空間認知のための人間概念学習の最小限のシミュレーションであるConsoleoを導入し,3次元内部自己蒸留と2D-3Dのクロスモーダルな関節埋め込みを組み合わせた。
シンプルさにもかかわらず、コンチェルトはゼロショットの可視化で示されるように、よりコヒーレントで情報的な空間的特徴を学習する。
スタンドアロンのSOTA 2D と 3D の自己監督モデルでは、それぞれ 14.2% と 4.8% を上回り、3D シーン知覚のための線形探索において、それらの特徴結合も上回っている。
完全な微調整により、Consoleoは複数のシーン理解ベンチマーク(ScanNetの80.7% mIoUなど)に新しいSOTA結果を設定する。
さらに,CLIPの言語空間にコンチェルト表現を線形に投影し,オープンワールドの知覚を可能にするトランスレータを提案する。
これらの結果から,協奏曲はより微細な幾何学的・意味的整合性を持った空間的表現が現れることが示唆された。
関連論文リスト
- GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting [74.56128224977279]
GALAは3次元ガウススプラッティングを用いたオープンな3次元シーン理解のための新しいフレームワークである(3DGS)。
GALAは、自己教師付きコントラスト学習を通じてシーン固有の3Dインスタンス特徴フィールドを蒸留する。
シームレスな2Dおよび3Dオープン語彙クエリをサポートし、ガウス単位の高次元特徴学習を回避してメモリ消費を削減する。
論文 参考訳(メタデータ) (2025-08-19T21:26:49Z) - Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images [36.084665557986156]
スパース2Dビューから3Dシーンを再構築し、意味的に解釈することは、コンピュータビジョンの根本的な課題である。
本稿では,オープンな語彙意味論に富んだ統一された3次元シーン表現を共同で再構築する,新しいフィードフォワードフレームワークであるUni3Rを紹介する。
論文 参考訳(メタデータ) (2025-08-05T16:54:55Z) - Fake It To Make It: Virtual Multiviews to Enhance Monocular Indoor Semantic Scene Completion [0.8669877024051931]
Indoor Semantic Scene Completionは、屋内シーンの単一のRGB画像から3Dセマンティック占有マップを再構築することを目的としている。
我々は、新しいビュー合成とマルチビュー融合を活用する革新的なアプローチを導入する。
我々は、NYUv2データセット上の既存のSSCネットワークと統合した場合、Scene Completionの最大2.8%、Semantic Scene Completionの4.9%のIoUスコアの改善を実証する。
論文 参考訳(メタデータ) (2025-03-07T02:09:38Z) - 4-LEGS: 4D Language Embedded Gaussian Splatting [12.699978393733309]
3次元ガウシアンティングに基づく4次元表現に時間的特徴を持ち上げる方法を示す。
これにより、ユーザはテキストプロンプトからビデオ内のイベントを時間的にローカライズすることができる。
我々は,人や動物が様々な行動を行う様子を公開3Dビデオデータセットで実演する。
論文 参考訳(メタデータ) (2024-10-14T17:00:53Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。