論文の概要: GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning
- arxiv url: http://arxiv.org/abs/2312.08744v2
- Date: Mon, 15 Jul 2024 17:15:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 02:34:28.694201
- Title: GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning
- Title(参考訳): GOEmbed:表現に依存しない3D特徴学習のためのグラディエントオリジナル埋め込み
- Authors: Animesh Karnewar, Roman Shapovalov, Tom Monnier, Andrea Vedaldi, Niloy J. Mitra, David Novotny,
- Abstract要約: 入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
- 参考スコア(独自算出の注目度): 67.61509647032862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoding information from 2D views of an object into a 3D representation is crucial for generalized 3D feature extraction. Such features can then enable 3D reconstruction, 3D generation, and other applications. We propose GOEmbed (Gradient Origin Embeddings) that encodes input 2D images into any 3D representation, without requiring a pre-trained image feature extractor; unlike typical prior approaches in which input images are either encoded using 2D features extracted from large pre-trained models, or customized features are designed to handle different 3D representations; or worse, encoders may not yet be available for specialized 3D neural representations such as MLPs and hash-grids. We extensively evaluate our proposed GOEmbed under different experimental settings on the OmniObject3D benchmark. First, we evaluate how well the mechanism compares against prior encoding mechanisms on multiple 3D representations using an illustrative experiment called Plenoptic-Encoding. Second, the efficacy of the GOEmbed mechanism is further demonstrated by achieving a new SOTA FID of 22.12 on the OmniObject3D generation task using a combination of GOEmbed and DFM (Diffusion with Forward Models), which we call GOEmbedFusion. Finally, we evaluate how the GOEmbed mechanism bolsters sparse-view 3D reconstruction pipelines.
- Abstract(参考訳): オブジェクトの2次元ビューから3次元表現に情報をエンコードすることは、一般化された3次元特徴抽出に不可欠である。
これらの機能は、3D再構成、3D生成、その他のアプリケーションを可能にする。
入力画像が大きな事前学習されたモデルから抽出された2D特徴を用いて符号化される場合や、カスタマイズされた特徴が異なる3D表現を扱うように設計されている場合や、さらに悪いことに、エンコーダは、MLPやハッシュグレードのような特殊な3D表現では利用できない場合など、任意の3D表現にインプット2D画像をエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。
提案するGOEmbedを,OmniObject3Dベンチマークで異なる実験条件下で広範囲に評価した。
まず,Plenoptic-Encoding(Plenoptic-Encoding)と呼ばれる図示実験を用いて,複数の3次元表現の先行符号化機構と比較した。
第2に,GOEmbed と DFM (Diffusion with Forward Models) を組み合わせた OmniObject3D 生成タスクにおいて,22.12 の SOTA FID を実現することで,GOEmbed 機構の有効性をさらに実証する。
最後に、GOEmbed機構がスパースビュー3D再構築パイプラインをどのように活性化するかを評価する。
関連論文リスト
- ODIN: A Single Model for 2D and 3D Segmentation [34.612953668151036]
ODINは、2D RGBイメージと3Dポイントクラウドのセグメンテーションとラベル付けを行うモデルである。
ScanNet200、Matterport3D、AI2THOR 3Dセグメンテーションベンチマーク上での最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-04T18:59:25Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - DFA3D: 3D Deformable Attention For 2D-to-3D Feature Lifting [28.709044035867596]
本稿では,DFA3Dと呼ばれる2D-to-3D機能リフトのための新しい演算子を提案する。
DFA3Dは、多視点2D画像の特徴を3Dオブジェクト検出のための統一された3D空間に変換する。
論文 参考訳(メタデータ) (2023-07-24T17:49:11Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。