論文の概要: CrossJEPA: Cross-Modal Joint-Embedding Predictive Architecture for Efficient 3D Representation Learning from 2D Images
- arxiv url: http://arxiv.org/abs/2511.18424v1
- Date: Sun, 23 Nov 2025 12:40:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.836221
- Title: CrossJEPA: Cross-Modal Joint-Embedding Predictive Architecture for Efficient 3D Representation Learning from 2D Images
- Title(参考訳): CrossJEPA:2次元画像からの効率的な3D表現学習のためのクロスモーダル共同埋め込み予測アーキテクチャ
- Authors: Avishka Perera, Kumal Hewagamage, Saeedha Nazar, Kavishka Abeywardana, Hasitha Gallella, Ranga Rodrigo, Mohamed Afham,
- Abstract要約: 3次元表現学習における大規模3次元データセットの不足に対処するために、クロスモーダルなクロスモーダル学習が出現している。
画像基礎モデルの知識を生かしたシンプルなクロスモーダル共同埋め込み予測アーキテクチャであるCrossJEPAを提案する。
- 参考スコア(独自算出の注目度): 1.20952748584685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image-to-point cross-modal learning has emerged to address the scarcity of large-scale 3D datasets in 3D representation learning. However, current methods that leverage 2D data often result in large, slow-to-train models, making them computationally expensive and difficult to deploy in resource-constrained environments. The architecture design of such models is therefore critical, determining their performance, memory footprint, and compute efficiency. The Joint-embedding Predictive Architecture (JEPA) has gained wide popularity in self-supervised learning for its simplicity and efficiency, but has been under-explored in cross-modal settings, partly due to the misconception that masking is intrinsic to JEPA. In this light, we propose CrossJEPA, a simple Cross-modal Joint Embedding Predictive Architecture that harnesses the knowledge of an image foundation model and trains a predictor to infer embeddings of specific rendered 2D views from corresponding 3D point clouds, thereby introducing a JEPA-style pretraining strategy beyond masking. By conditioning the predictor on cross-domain projection information, CrossJEPA purifies the supervision signal from semantics exclusive to the target domain. We further exploit the frozen teacher design with a one-time target embedding caching mechanism, yielding amortized efficiency. CrossJEPA achieves a new state-of-the-art in linear probing on the synthetic ModelNet40 (94.2%) and the real-world ScanObjectNN (88.3%) benchmarks, using only 14.1M pretraining parameters (8.5M in the point encoder), and about 6 pretraining hours on a standard single GPU. These results position CrossJEPA as a performant, memory-efficient, and fast-to-train framework for 3D representation learning via knowledge distillation. We analyze CrossJEPA intuitively, theoretically, and empirically, and extensively ablate our design choices. Code will be made available.
- Abstract(参考訳): 3次元表現学習において,大規模3次元データセットの不足に対処するために,画像間クロスモーダル学習が出現している。
しかし、2Dデータを利用する現在の手法は、しばしば大規模で遅い訓練モデルをもたらすため、計算コストが高く、リソースに制約のある環境でのデプロイが困難である。
したがって、そのようなモデルのアーキテクチャ設計は、その性能、メモリフットプリント、計算効率を決定するために重要である。
JEPA(Joint-embedding Predictive Architecture)は,その単純さと効率性から,自己指導型学習において広く普及している。
そこで本研究では,画像基礎モデルの知識を生かしたシンプルなクロスモーダル共同埋め込み予測アーキテクチャであるCrossJEPAを提案する。
クロスドメインプロジェクション情報に予測子を条件付けすることにより、CrossJEPAは、ターゲットドメイン専用のセマンティクスから監視信号を浄化する。
さらに, 凍結した教師設計を1回の目標埋め込みキャッシング機構で活用し, 償却効率を向上する。
CrossJEPAは、合成ModelNet40 (94.2%) と実世界のScanObjectNN (88.3%) のベンチマークで、14.1M事前学習パラメータ (8.5M in the point encoder) のみを使用し、標準の1GPUで約6時間事前学習を行う。
これらの結果から,CrossJEPAを知識蒸留による3次元表現学習のための高性能,メモリ効率,高速な学習フレームワークとして位置づけた。
我々はCrossJEPAを直感的に、理論的に、そして経験的に分析し、設計選択を広範囲に吸収する。
コードは利用可能になる。
関連論文リスト
- BlendCLIP: Bridging Synthetic and Real Domains for Zero-Shot 3D Object Classification with Multimodal Pretraining [2.400704807305413]
ゼロショットの3Dオブジェクト分類は、自動運転のような現実世界のアプリケーションには不可欠だ。
トレーニングに使用される合成データと、現実世界で遭遇するノイズの多いLiDARスキャンとの間の大きな領域ギャップによって、しばしば妨げられる。
BlendCLIPは、両ドメインの強みを戦略的に組み合わせることで、この合成と現実のギャップを橋渡しするマルチモーダル事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-21T03:08:27Z) - S3MOT: Monocular 3D Object Tracking with Selective State Space Model [3.5047603107971397]
3次元空間における多物体追跡は、ロボット工学とコンピュータ応用の進歩に不可欠である。
2Dビデオストリームからの3Dアソシエーションのマイニングが難しいため、モノラルなセットアップでは依然として大きな課題である。
モノクローナル3次元MOTのための不均一なキューの融合を促進するための3つの革新的な技術を提案する。
論文 参考訳(メタデータ) (2025-04-25T04:45:35Z) - ALOcc: Adaptive Lifting-Based 3D Semantic Occupancy and Cost Volume-Based Flow Predictions [91.55655961014027]
シーン理解には3次元セマンティック占有とフロー予測が不可欠である。
本稿では,3つの改善点を目標とした視覚ベースのフレームワークを提案する。
我々の純粋な畳み込みアーキテクチャは、セマンティック占有率とジョイントセマンティックフロー予測の両方のために、複数のベンチマーク上で新しいSOTA性能を確立する。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - PillarNeXt: Rethinking Network Designs for 3D Object Detection in LiDAR
Point Clouds [29.15589024703907]
本稿では,計算資源の割り当ての観点から,局所的な点集合体を再考する。
最も単純な柱ベースのモデルは、精度とレイテンシの両方を考慮して驚くほどよく機能することがわかった。
本研究は,3次元物体検出の高性能化のために,詳細な幾何学的モデリングが不可欠である,という一般的な直観に挑戦する。
論文 参考訳(メタデータ) (2023-05-08T17:59:14Z) - Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection [20.161887223481994]
マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。
StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
論文 参考訳(メタデータ) (2023-03-21T15:19:20Z) - GDRNPP: A Geometry-guided and Fully Learning-based Object Pose Estimator [51.89441403642665]
剛体物体の6次元ポーズ推定はコンピュータビジョンにおける長年の課題である。
近年、ディープラーニングの出現は、信頼できる6Dポーズを予測するための畳み込みニューラルネットワーク(CNN)の可能性を明らかにしている。
本稿では,完全学習型オブジェクトポーズ推定器を提案する。
論文 参考訳(メタデータ) (2021-02-24T09:11:31Z) - Self-Supervised Pretraining of 3D Features on any Point-Cloud [40.26575888582241]
3D登録なしで任意の3Dデータを扱うことができる簡単な自己監督関連方法を紹介します。
オブジェクト検出、セマンティックセグメンテーション、オブジェクト分類の9つのベンチマークでモデルを評価し、最新の結果を達成し、教師付きプリトレーニングを上回ります。
論文 参考訳(メタデータ) (2021-01-07T18:55:21Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z) - Inference Stage Optimization for Cross-scenario 3D Human Pose Estimation [97.93687743378106]
既存の3Dポーズ推定モデルは、目に見えないポーズを持つ新しいシナリオに適用する場合、パフォーマンス低下を被る。
本稿では、3次元ポーズモデルの一般化性を改善するための新しいフレームワークである推論段階最適化(ISO)を提案する。
注目すべきは、MPI-INF-3DHPで83.6%の最先端の3D PCKが得られることだ。
論文 参考訳(メタデータ) (2020-07-04T09:45:18Z) - 3DSSD: Point-based 3D Single Stage Object Detector [61.67928229961813]
本稿では,3DSSDと命名された点ベース3次元単段物体検出器を提案し,精度と効率のバランスが良好であることを示す。
提案手法は,最先端のボクセルをベースとした一段法を大差で上回り,二段法に匹敵する性能を有する。
論文 参考訳(メタデータ) (2020-02-24T12:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。