論文の概要: Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations
- arxiv url: http://arxiv.org/abs/2209.03494v1
- Date: Wed, 7 Sep 2022 23:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:24:14.329841
- Title: Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations
- Title(参考訳): 神経機能融合場:自己スーパービジョン2次元画像表現の3次元蒸留
- Authors: Vadim Tschernezki, Iro Laina, Diane Larlus and Andrea Vedaldi
- Abstract要約: 本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
- 参考スコア(独自算出の注目度): 92.88108411154255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Neural Feature Fusion Fields (N3F), a method that improves dense
2D image feature extractors when the latter are applied to the analysis of
multiple images reconstructible as a 3D scene. Given an image feature
extractor, for example pre-trained using self-supervision, N3F uses it as a
teacher to learn a student network defined in 3D space. The 3D student network
is similar to a neural radiance field that distills said features and can be
trained with the usual differentiable rendering machinery. As a consequence,
N3F is readily applicable to most neural rendering formulations, including
vanilla NeRF and its extensions to complex dynamic scenes. We show that our
method not only enables semantic understanding in the context of scene-specific
neural fields without the use of manual labels, but also consistently improves
over the self-supervised 2D baselines. This is demonstrated by considering
various tasks, such as 2D object retrieval, 3D segmentation, and scene editing,
in diverse sequences, including long egocentric videos in the EPIC-KITCHENS
benchmark.
- Abstract(参考訳): 本研究では,3次元シーンとして再構成可能な複数の画像の解析に後者を適用した際に,密度の高い2次元画像特徴抽出器を改善する手法であるneural feature fusion fields (n3f)を提案する。
イメージ特徴抽出器、例えば自己スーパービジョンを使って事前訓練された場合、N3Fは教師として3D空間で定義された学生ネットワークを学習する。
3d学生ネットワークは、その特徴を蒸留し、通常の微分可能なレンダリング機械で訓練できるニューラル・ラミアンス・フィールドに似ている。
その結果、N3FはバニラNeRFや複雑なダイナミックシーンへの拡張を含むほとんどのニューラルレンダリングの定式化に容易に適用できる。
本手法は,手動ラベルを使わずに,シーン固有のニューラルフィールドの文脈で意味的理解を可能にするだけでなく,自己教師付き2次元ベースラインよりも一貫して改善できることを示す。
EPIC-KITCHENSベンチマークでは,2Dオブジェクトの検索,3Dセグメンテーション,シーン編集といった様々なタスクを多種多様なシーケンスで検討した。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields [57.617972778377215]
提案手法は,RGB画像から有効な3D表現を生成する方法を示す。
我々は、この表現を、提案した擬似RGBデータに基づいて、180万枚以上の画像で事前訓練する。
我々は,NeRFの自己教師型プレトレーニングであるNeRF-MAE(NeRF-MAE)を目覚ましいスケールで実施し,様々な3Dタスクの性能向上を実現した。
論文 参考訳(メタデータ) (2024-04-01T17:59:55Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - 3inGAN: Learning a 3D Generative Model from Images of a Self-similar
Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。
実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文 参考訳(メタデータ) (2022-11-27T18:03:21Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。