論文の概要: Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning
- arxiv url: http://arxiv.org/abs/2411.19458v1
- Date: Fri, 29 Nov 2024 04:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:19:54.790044
- Title: Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning
- Title(参考訳): 最小特徴ファインタニングによる3次元対応理解の多視点等価性向上
- Authors: Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas,
- Abstract要約: 我々は、VTベースのモデルの3次元認識を評価し、強化する。
本稿では,3次元対応に基づく簡易かつ効果的なファインタニング戦略を提案する。
すべてのコードとリソースが公開され、3D対応ビジョンモデルのさらなる進歩をサポートする。
- 参考スコア(独自算出の注目度): 10.51523800391153
- License:
- Abstract: Vision foundation models, particularly the ViT family, have revolutionized image understanding by providing rich semantic features. However, despite their success in 2D comprehension, their abilities on grasping 3D spatial relationships are still unclear. In this work, we evaluate and enhance the 3D awareness of ViT-based models. We begin by systematically assessing their ability to learn 3D equivariant features, specifically examining the consistency of semantic embeddings across different viewpoints. Our findings indicate that improved 3D equivariance leads to better performance on various downstream tasks, including pose estimation, tracking, and semantic transfer. Building on this insight, we propose a simple yet effective finetuning strategy based on 3D correspondences, which significantly enhances the 3D correspondence understanding of existing vision models. Remarkably, even finetuning on a single object for just one iteration results in substantial performance gains. All code and resources will be made publicly available to support further advancements in 3D-aware vision models. Our code is available at https://github.com/qq456cvb/3DCorrEnhance.
- Abstract(参考訳): ビジョンファウンデーションモデル、特にViTファミリーは、リッチなセマンティック機能を提供することで画像理解に革命をもたらした。
しかし, 2次元理解の成功にもかかわらず, 3次元空間関係の把握能力はいまだに不明である。
本研究では,VTモデルにおける3次元認識を評価・強化する。
まず,3次元同変特徴の学習能力を体系的に評価し,各視点のセマンティック埋め込みの整合性について検討する。
その結果,3次元同値性の改善は,ポーズ推定,トラッキング,セマンティックトランスファーなど,様々な下流タスクの性能向上につながることが示唆された。
この知見に基づいて,既存の視覚モデルの3次元対応理解を大幅に向上させる3次元対応に基づく簡易かつ効果的な微調整戦略を提案する。
注目すべきは、1つのオブジェクトを1回だけ微調整することで、パフォーマンスが大幅に向上することです。
すべてのコードとリソースが公開され、3D対応ビジョンモデルのさらなる進歩をサポートする。
私たちのコードはhttps://github.com/qq456cvb/3DCorrEnhance.comから入手可能です。
関連論文リスト
- Towards Foundation Models for 3D Vision: How Close Are We? [21.50293166371202]
3Dビジョンのための基礎モデルを構築することは、未解決の複雑な課題である。
我々は,視覚質問回答形式の基本的な3次元視覚タスクを網羅する新しい3次元視覚理解ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-14T17:57:23Z) - SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。
3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。
また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - HandBooster: Boosting 3D Hand-Mesh Reconstruction by Conditional Synthesis and Sampling of Hand-Object Interactions [68.28684509445529]
HandBoosterは、データの多様性を向上し、3Dハンド・ミーシュ・リコンストラクションのパフォーマンスを向上する新しいアプローチである。
まず,多様な手やポーズ,ビュー,背景を持つリアルな画像を生成するために,拡散モデルを誘導する多目的コンテンツ認識条件を構築した。
そこで我々は,我々の類似性を考慮した分布サンプリング戦略に基づく新しい条件作成手法を設計し,トレーニングセットとは異なる,斬新で現実的なインタラクションのポーズを意図的に見つける。
論文 参考訳(メタデータ) (2024-03-27T13:56:08Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - JM3D & JM3D-LLM: Elevating 3D Understanding with Joint Multi-modal Cues [68.76032126906743]
私たちは、ポイントクラウド、テキスト、イメージを統合する包括的なアプローチであるJM3Dを紹介します。
SMO(Structured Multimodal Organizer)は、複数のビューと階層的なテキストによる視覚言語表現の強化である。
我々の高度なモデルであるJM3D-LLMは、効率的な微調整により、大規模言語モデルと3D表現を結合する。
論文 参考訳(メタデータ) (2023-10-14T06:13:20Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。