論文の概要: Feat2GS: Probing Visual Foundation Models with Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2412.09606v1
- Date: Thu, 12 Dec 2024 18:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:09.262386
- Title: Feat2GS: Probing Visual Foundation Models with Gaussian Splatting
- Title(参考訳): Feat2GS: Gaussian Splatting による Visual Foundation モデルの調査
- Authors: Yue Chen, Xingyu Chen, Anpei Chen, Gerard Pons-Moll, Yuliang Xiu,
- Abstract要約: ビジュアルファウンデーションモデル(VFM)は、広範囲なデータセットでトレーニングされるが、2D画像に制限されることが多い。
画像から抽出したVFM特徴から3Dガウス特性を読み取るFeat2GSを紹介する。
我々は,複数のVFMの3次元認識を探索する広範囲な実験を行い,VFMの3次元認識に繋がる成分について検討した。
- 参考スコア(独自算出の注目度): 53.86049874165888
- License:
- Abstract: Given that visual foundation models (VFMs) are trained on extensive datasets but often limited to 2D images, a natural question arises: how well do they understand the 3D world? With the differences in architecture and training protocols (i.e., objectives, proxy tasks), a unified framework to fairly and comprehensively probe their 3D awareness is urgently needed. Existing works on 3D probing suggest single-view 2.5D estimation (e.g., depth and normal) or two-view sparse 2D correspondence (e.g., matching and tracking). Unfortunately, these tasks ignore texture awareness, and require 3D data as ground-truth, which limits the scale and diversity of their evaluation set. To address these issues, we introduce Feat2GS, which readout 3D Gaussians attributes from VFM features extracted from unposed images. This allows us to probe 3D awareness for geometry and texture via novel view synthesis, without requiring 3D data. Additionally, the disentanglement of 3DGS parameters - geometry ($\boldsymbol{x}, \alpha, \Sigma$) and texture ($\boldsymbol{c}$) - enables separate analysis of texture and geometry awareness. Under Feat2GS, we conduct extensive experiments to probe the 3D awareness of several VFMs, and investigate the ingredients that lead to a 3D aware VFM. Building on these findings, we develop several variants that achieve state-of-the-art across diverse datasets. This makes Feat2GS useful for probing VFMs, and as a simple-yet-effective baseline for novel-view synthesis. Code and data will be made available at https://fanegg.github.io/Feat2GS/.
- Abstract(参考訳): 視覚基礎モデル(VFM)が広範囲なデータセットでトレーニングされているが、しばしば2D画像に制限されていることを考えると、自然な疑問が生まれます。
アーキテクチャとトレーニングプロトコル(すなわち、目的、プロキシタスク)の違いにより、3Dの認識を公平かつ包括的に調査するための統一されたフレームワークが緊急に必要となる。
既存の3D探索作業では、単一ビュー2.5D推定(例えば、深さと正常)または2ビュースパース2D対応(例えば、マッチングと追跡)が提案されている。
残念ながら、これらのタスクはテクスチャの認識を無視し、3Dデータを地平線として必要とするため、評価セットのスケールと多様性が制限される。
これらの問題に対処するために、未ポーズ画像から抽出したVFM特徴から3Dガウス属性を読み取るFeat2GSを紹介する。
これにより、3Dデータを必要とせずに、新しいビュー合成によって幾何学とテクスチャの3D認識を探索することができる。
さらに、3DGSパラメータのアンタングル - 幾何 (\boldsymbol{x}, \alpha, \Sigma$) とテクスチャ (\boldsymbol{c}$) - は、テクスチャと幾何学意識の別々な分析を可能にする。
Feat2GSの下では、複数のVFMの3次元認識を探索し、VFMの3次元認識に繋がる成分を調査する広範囲な実験を行っている。
これらの知見に基づいて、多様なデータセットをまたいだ最先端を実現するいくつかの変種を開発する。
これにより、Feat2GSはVFMの探索に有用であり、新規なビュー合成のための単純なyet効果のベースラインとして有用である。
コードとデータはhttps://fanegg.github.io/Feat2GS/で公開される。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? [111.11502241431286]
視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
論文 参考訳(メタデータ) (2022-09-15T03:34:58Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。