論文の概要: PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters
- arxiv url: http://arxiv.org/abs/2603.04165v2
- Date: Tue, 10 Mar 2026 12:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:12.919372
- Title: PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters
- Title(参考訳): PlaneCycle: アダプタのない基礎モデルのトレーニング不要な2D-to-3Dリフティング
- Authors: Yinghong Yu, Guangyuan Li, Jiancheng Yang,
- Abstract要約: PlaneCycleは、アーキテクチャに依存しない基礎モデルの2D-to-3Dリフトのための、トレーニングフリーでアダプタフリーなオペレータである。
PlaneCycleはオリジナルの2Dバックボーンを再利用し、HW、DW、DH平面に空間アグリゲーションを循環的に分散する。
- 参考スコア(独自算出の注目度): 8.890822174028315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale 2D foundation models exhibit strong transferable representations, yet extending them to 3D volumetric data typically requires retraining, adapters, or architectural redesign. We introduce PlaneCycle, a training-free, adapter-free operator for architecture-agnostic 2D-to-3D lifting of foundation models. PlaneCycle reuses the original pretrained 2D backbone by cyclically distributing spatial aggregation across orthogonal HW, DW, and DH planes throughout network depth, enabling progressive 3D fusion while preserving pretrained inductive biases. The method introduces no additional parameters and is applicable to arbitrary 2D networks. Using pretrained DINOv3 models, we evaluate PlaneCycle on six 3D classification and three 3D segmentation benchmarks. Without any training, the lifted models exhibit intrinsic 3D fusion capability and, under linear probing, outperform slice-wise 2D baselines and strong 3D counterparts, approaching the performance of fully trained models. With full fine-tuning, PlaneCycle matches standard 3D architectures, highlighting its potential as a seamless and practical 2D-to-3D lifting operator. These results demonstrate that 3D capability can be unlocked from pretrained 2D foundation models without structural modification or retraining. Code is available at https://github.com/HINTLab/PlaneCycle.
- Abstract(参考訳): 大規模な2Dファウンデーションモデルは、強力な転送可能な表現を示すが、それを3Dボリュームデータに拡張するには、通常、再トレーニング、アダプタ、アーキテクチャの再設計が必要である。
基礎モデルのアーキテクチャに依存しない2D-to-3Dリフトのためのトレーニングフリーでアダプタフリーな演算子であるPlainCycleを紹介する。
PlaneCycleは、直交HW、DW、DH平面の空間的凝集をネットワーク深度を通して循環的に分散することにより、トレーニング済みの誘導バイアスを保ちながらプログレッシブ3D融合を可能にする。
この手法は追加パラメータを導入せず、任意の2Dネットワークに適用できる。
事前学習したDINOv3モデルを用いて,PlaneCycleを6つの3次元分類と3つの3次元セグメンテーションベンチマークで評価する。
トレーニングなしでは、持ち上げられたモデルは本質的な3D融合能力を示し、線形プローブの下ではスライスワイス2Dベースラインと強力な3Dベースラインを上回り、完全に訓練されたモデルの性能に近づいた。
完全な微調整で、PlaneCycleは標準的な3Dアーキテクチャと一致し、シームレスで実用的な2D-to-3Dリフトオペレーターとしての可能性を強調している。
これらの結果から, 構造変化や再訓練を伴わずに, 事前訓練した2次元基礎モデルから3次元能力を解き放つことが可能であることが示唆された。
コードはhttps://github.com/HINTLab/PlaneCycleで入手できる。
関連論文リスト
- DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。
3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。
2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文 参考訳(メタデータ) (2025-03-24T17:59:11Z) - Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。
UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文 参考訳(メタデータ) (2025-03-13T17:56:22Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本稿では,2次元監視のみを用いた3次元画像調和拡散モデルの学習フレームワークを提案する。
既存の3D生成モデルは、大規模な3Dデータセットが不足しているため、完全に3Dの監視に依存している。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Video Pretraining Advances 3D Deep Learning on Chest CT Tasks [63.879848037679224]
大規模自然画像分類データセットの事前学習は、データスカース2D医療タスクのモデル開発に役立っている。
これらの2Dモデルは、3Dコンピュータビジョンベンチマークで3Dモデルに勝っている。
3Dモデルのためのビデオ事前トレーニングにより、より小さなデータセットでより高性能な3D医療タスクを実現することができることを示す。
論文 参考訳(メタデータ) (2023-04-02T14:46:58Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。