論文の概要: Variable Radiance Field for Real-Life Category-Specifc Reconstruction
from Single Image
- arxiv url: http://arxiv.org/abs/2306.05145v1
- Date: Thu, 8 Jun 2023 12:12:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 14:35:53.820798
- Title: Variable Radiance Field for Real-Life Category-Specifc Reconstruction
from Single Image
- Title(参考訳): 単一画像からのリアルライフカテゴリー・種別再構成のための可変放射場
- Authors: Kun Wang, Zhiqiang Yan, Zhenyu Zhang, Xiang Li, Jun Li, and Jian Yang
- Abstract要約: 本稿では,カメラパラメータが未知の単一画像からカテゴリ固有のオブジェクトを再構成できる新しいフレームワークを提案する。
マルチスケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化する。
また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
- 参考スコア(独自算出の注目度): 27.290232027686237
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reconstructing category-specific objects from a single image is a challenging
task that requires inferring the geometry and appearance of an object from a
limited viewpoint. Existing methods typically rely on local feature retrieval
based on re-projection with known camera intrinsic, which are slow and prone to
distortion at viewpoints distant from the input image. In this paper, we
present Variable Radiance Field (VRF), a novel framework that can efficiently
reconstruct category-specific objects from a single image without known camera
parameters. Our key contributions are: (1) We parameterize the geometry and
appearance of the object using a multi-scale global feature extractor, which
avoids frequent point-wise feature retrieval and camera dependency. We also
propose a contrastive learning-based pretraining strategy to improve the
feature extractor. (2) We reduce the geometric complexity of the object by
learning a category template, and use hypernetworks to generate a small neural
radiance field for fast and instance-specific rendering. (3) We align each
training instance to the template space using a learned similarity
transformation, which enables semantic-consistent learning across different
objects. We evaluate our method on the CO3D dataset and show that it
outperforms existing methods in terms of quality and speed. We also demonstrate
its applicability to shape interpolation and object placement tasks.
- Abstract(参考訳): 一つの画像からカテゴリ固有のオブジェクトを再構築することは、限られた視点からオブジェクトの形状や外観を推測する必要がある困難なタスクである。
既存の手法は通常、既知のカメラ固有の再投影に基づく局所的な特徴検索に依存しており、入力画像から離れた視点で歪みが発生しやすい。
本稿では,カメラパラメータが不明な単一の画像からカテゴリ固有オブジェクトを効率的に再構成できる新しいフレームワークであるvarable radiance field(vrf)を提案する。
我々は,(1)多スケールグローバル特徴抽出器を用いてオブジェクトの形状と外観をパラメータ化し,ポイントワイド特徴抽出とカメラ依存性の頻繁さを回避する。
また,特徴抽出器の改良のために,コントラスト学習に基づく事前学習戦略を提案する。
2) カテゴリテンプレートを学習することでオブジェクトの幾何学的複雑さを低減し, ハイパーネットワークを用いて高速かつインスタンス固有のレンダリングのための小さなニューラルラディアンス場を生成する。
3)各トレーニングインスタンスをテンプレート空間にアライメントする学習類似度変換により,異なるオブジェクト間の意味一貫性のある学習を可能にする。
提案手法をCO3Dデータセット上で評価し,既存の手法よりも品質と速度で優れていることを示す。
また、補間およびオブジェクト配置タスクを形作るための適用性を示す。
関連論文リスト
- 3D Equivariant Pose Regression via Direct Wigner-D Harmonics Prediction [50.07071392673984]
既存の方法は、角度や四元数を用いて空間領域でパラメータ化された3次元回転を学習する。
本稿では,3次元回転回帰のためのWigner-D係数を直接予測する周波数領域アプローチを提案する。
提案手法は, ModelNet10-SO(3) や PASCAL3D+ などのベンチマーク上での最先端結果を実現する。
論文 参考訳(メタデータ) (2024-11-01T12:50:38Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Source-Free and Image-Only Unsupervised Domain Adaptation for Category
Level Object Pose Estimation [18.011044932979143]
3DUDAは、3Dや深度データを使わずに、ニュアンスドライデンのターゲットドメインに適応できる手法である。
対象のカテゴリを単純な立方体メッシュとして表現し、ニューラル特徴活性化の生成モデルを利用する。
本手法は,グローバルな擬似ラベル付きデータセットの微調整を軽度な仮定でシミュレートする。
論文 参考訳(メタデータ) (2024-01-19T17:48:05Z) - 3DFusion, A real-time 3D object reconstruction pipeline based on
streamed instance segmented data [0.552480439325792]
本稿では,RGB-D画像を利用したリアルタイムセグメンテーション・再構築システムを提案する。
システムはRGB-Dデータに対して画素レベルのセグメンテーションを行い、背景オブジェクトを効果的に分離する。
リアルタイム3Dモデリングは、拡張現実、仮想現実、インテリアデザイン、都市計画、道路支援、セキュリティシステムなど、さまざまな分野に適用することができる。
論文 参考訳(メタデータ) (2023-11-11T20:11:58Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Unsupervised Multi-View Object Segmentation Using Radiance Field
Propagation [55.9577535403381]
本稿では,未ラベルのシーンの多視点画像のみを考慮し,再構成中の3次元オブジェクトのセグメント化に新たなアプローチを提案する。
提案手法の核となるのは,2方向光度損失を持つ個々の物体の放射界に対する新しい伝搬戦略である。
我々の知る限り、RFPはニューラルレイディアンスフィールド(NeRF)のための3次元シーンオブジェクトセグメンテーションに取り組むための最初の教師なしアプローチである。
論文 参考訳(メタデータ) (2022-10-02T11:14:23Z) - AE-NeRF: Auto-Encoding Neural Radiance Fields for 3D-Aware Object
Manipulation [24.65896451569795]
我々は,AE-NeRF(Auto-Aware Neural Radiance Fields)と呼ばれる3次元物体操作のための新しいフレームワークを提案する。
我々のモデルは自動エンコーダアーキテクチャで定式化され、画像から3次元形状、外観、カメラポーズなどの不整形3D属性を抽出する。
歪み生成ニューラルレージアンスフィールド(NeRF)による特性から高品質な画像が描画される
論文 参考訳(メタデータ) (2022-04-28T11:50:18Z) - RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust
Correspondence Field Estimation and Pose Optimization [46.144194562841435]
本稿では、オブジェクトポーズ改善のためのリカレントニューラルネットワーク(RNN)に基づくフレームワークを提案する。
この問題は、推定対応フィールドに基づいて非線形最小二乗問題として定式化される。
各イテレーションにおいて、対応フィールド推定とポーズ精錬を代替して行い、正確なオブジェクトポーズを復元する。
論文 参考訳(メタデータ) (2022-03-24T06:24:55Z) - Category Level Object Pose Estimation via Neural Analysis-by-Synthesis [64.14028598360741]
本稿では、勾配に基づくフィッティング法とパラメトリックニューラルネットワーク合成モジュールを組み合わせる。
画像合成ネットワークは、ポーズ設定空間を効率的に分散するように設計されている。
本研究では,2次元画像のみから高精度に物体の向きを復元できることを実験的に示す。
論文 参考訳(メタデータ) (2020-08-18T20:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。