論文の概要: Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces
- arxiv url: http://arxiv.org/abs/2503.05283v1
- Date: Fri, 07 Mar 2025 09:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:38.431019
- Title: Escaping Plato's Cave: Towards the Alignment of 3D and Text Latent Spaces
- Title(参考訳): プラトンの洞窟から逃れる--3次元空間とテキスト空間のアライメントを目指して
- Authors: Souhail Hadgi, Luca Moschella, Andrea Santilli, Diego Gomez, Qixing Huang, Emanuele Rodolà, Simone Melzi, Maks Ovsjanikov,
- Abstract要約: 単モーダルテキストと3Dエンコーダの有意な訓練後特徴アライメントが,性能に限界をもたらすことを示す。
次に、対応する特徴空間の部分空間の抽出に焦点をあて、学習された表現を高次元の低次元部分空間に射影することにより、アライメントの質が著しく高くなることを発見する。
- 参考スコア(独自算出の注目度): 52.237827968294766
- License:
- Abstract: Recent works have shown that, when trained at scale, uni-modal 2D vision and text encoders converge to learned features that share remarkable structural properties, despite arising from different representations. However, the role of 3D encoders with respect to other modalities remains unexplored. Furthermore, existing 3D foundation models that leverage large datasets are typically trained with explicit alignment objectives with respect to frozen encoders from other representations. In this work, we investigate the possibility of a posteriori alignment of representations obtained from uni-modal 3D encoders compared to text-based feature spaces. We show that naive post-training feature alignment of uni-modal text and 3D encoders results in limited performance. We then focus on extracting subspaces of the corresponding feature spaces and discover that by projecting learned representations onto well-chosen lower-dimensional subspaces the quality of alignment becomes significantly higher, leading to improved accuracy on matching and retrieval tasks. Our analysis further sheds light on the nature of these shared subspaces, which roughly separate between semantic and geometric data representations. Overall, ours is the first work that helps to establish a baseline for post-training alignment of 3D uni-modal and text feature spaces, and helps to highlight both the shared and unique properties of 3D data compared to other representations.
- Abstract(参考訳): 近年の研究では、一様の2次元視覚とテキストエンコーダが、異なる表現から生じるにもかかわらず、顕著な構造特性を共有する学習特徴に収束していることが示されている。
しかし、他のモダリティに対する3Dエンコーダの役割は未解明のままである。
さらに、大規模なデータセットを利用する既存の3Dファウンデーションモデルは、通常、他の表現からの凍結エンコーダに対して明示的なアライメント目的で訓練される。
本研究では、テキストベースの特徴空間と比較して、ユニモーダル3Dエンコーダから得られる表現の後方アライメントの可能性を検討する。
単モーダルテキストと3Dエンコーダの有意な訓練後特徴アライメントが,性能に限界をもたらすことを示す。
次に、対応する特徴空間の部分空間の抽出に焦点をあて、学習した表現を良質な低次元部分空間に投影することにより、アライメントの質が著しく向上し、マッチングおよび検索タスクの精度が向上することを発見した。
我々の分析は、これらの共有部分空間の性質に光を当て、意味的データ表現と幾何学的データ表現とを大まかに分離する。
全体として、私たちの研究は、3Dユニモーダルとテキストの特徴空間のトレーニング後のアライメントのベースラインを確立するのに役立ち、他の表現と比較して3Dデータの共有特性とユニークな特性の両方を強調するのに役立ちます。
関連論文リスト
- 3D Weakly Supervised Semantic Segmentation with 2D Vision-Language Guidance [68.8825501902835]
3DSS-VLGは2Dビジョンランゲージ誘導を用いた3Dセマンティックの弱い教師付きアプローチである。
我々の知る限りでは、テキストカテゴリラベルのテキスト意味情報を用いて、弱教師付きセマンティックセマンティックセグメンテーションを調査するのは、これが初めてである。
論文 参考訳(メタデータ) (2024-07-13T09:39:11Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - COM3D: Leveraging Cross-View Correspondence and Cross-Modal Mining for 3D Retrieval [21.070154402838906]
本稿では,クロスビュー対応とクロスモーダルマイニングを活用して検索性能を向上させるCOM3Dを提案する。
特に、シーン表現変換器によって3次元特徴を増強し、3次元形状のクロスビュー対応特徴を生成する。
さらに,セミハードな負のサンプルマイニング法に基づいて,クロスモーダルマッチングプロセスの最適化を提案する。
論文 参考訳(メタデータ) (2024-05-07T08:16:13Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Pri3D: Can 3D Priors Help 2D Representation Learning? [37.35721274841419]
近年の3次元知覚の進歩は、3次元空間の幾何学的構造を理解する上で顕著な進歩を示した。
このような幾何学的理解の進歩に触発されて,画像に基づく知覚を幾何学的制約の下で学習した表現で表現することを目指す。
マルチビューRGB-Dデータに基づくネットワークプリトレーニングのためのビュー不変なジオメトリ認識表現の学習手法を提案する。
論文 参考訳(メタデータ) (2021-04-22T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。