論文の概要: PeRFception: Perception using Radiance Fields
- arxiv url: http://arxiv.org/abs/2208.11537v1
- Date: Wed, 24 Aug 2022 13:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:59:32.427077
- Title: PeRFception: Perception using Radiance Fields
- Title(参考訳): PeRFception: 放射場を用いた知覚
- Authors: Yoonwoo Jeong, Seungjoo Shin, Junha Lee, Christopher Choy, Animashree
Anandkumar, Minsu Cho, Jaesik Park
- Abstract要約: 私たちは、PeRFceptionと呼ばれる知覚タスクのための、最初の大規模な暗黙的表現データセットを作成します。
元のデータセットからかなりのメモリ圧縮率 (96.4%) を示し、2D情報と3D情報の両方を統一形式で格納している。
この暗黙の形式を直接入力する分類とセグメンテーションモデルを構築し、画像の背景に過度に収まらないよう、新しい拡張手法を提案する。
- 参考スコア(独自算出の注目度): 72.99583614735545
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The recent progress in implicit 3D representation, i.e., Neural Radiance
Fields (NeRFs), has made accurate and photorealistic 3D reconstruction possible
in a differentiable manner. This new representation can effectively convey the
information of hundreds of high-resolution images in one compact format and
allows photorealistic synthesis of novel views. In this work, using the variant
of NeRF called Plenoxels, we create the first large-scale implicit
representation datasets for perception tasks, called the PeRFception, which
consists of two parts that incorporate both object-centric and scene-centric
scans for classification and segmentation. It shows a significant memory
compression rate (96.4\%) from the original dataset, while containing both 2D
and 3D information in a unified form. We construct the classification and
segmentation models that directly take as input this implicit format and also
propose a novel augmentation technique to avoid overfitting on backgrounds of
images. The code and data are publicly available in
https://postech-cvlab.github.io/PeRFception .
- Abstract(参考訳): 暗黙的な3D表現の最近の進歩、すなわちNeural Radiance Fields(NeRF)は、正確で光リアルな3D再構成を可能にした。
この新しい表現は、数百の高解像度画像の情報を1つのコンパクトフォーマットで効果的に伝達し、新しいビューのフォトリアリスティックな合成を可能にする。
本研究では、plenoxelsと呼ばれるnerfの変種を用いて、知覚課題のための最初の大規模な暗黙的表現データセット、perfceptionを作成し、このデータセットは、分類とセグメンテーションのためにオブジェクト中心とシーン中心の両方のスキャンを組み込んだ2つの部分からなる。
オリジナルのデータセットからかなりのメモリ圧縮率(96.4\%)を示し、2dと3dの情報を統一した形式で含む。
この暗黙の形式を直接入力する分類とセグメンテーションモデルを構築し、画像の背景に過度に適合しないようにするための新しい拡張手法を提案する。
コードとデータはhttps://postech-cvlab.github.io/PeRFception で公開されている。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows [60.291277312569285]
本研究では,単一観測値に基づいてNeRF表現を自動的に修正する手法を提案する。
本手法は, 変形を3次元流れ, 特に剛性変換の重み付き線形ブレンディングとして定義する。
また,単一観測によるNeRFシーンの修正問題を探索するための新しいデータセットも導入した。
論文 参考訳(メタデータ) (2024-06-15T07:58:08Z) - HyperPlanes: Hypernetwork Approach to Rapid NeRF Adaptation [4.53411151619456]
本稿では,推論中に勾配最適化を必要としないハイパーネットワークのパラダイムに基づく数ショットの学習手法を提案する。
我々は,少数の画像から高品質な3Dオブジェクト表現を単一ステップで生成する効率的な方法を開発した。
論文 参考訳(メタデータ) (2024-02-02T16:10:29Z) - Registering Neural Radiance Fields as 3D Density Images [55.64859832225061]
我々は,様々な場面でトレーニングやテストが可能な,普遍的な事前学習型ニューラルネットワークを提案する。
我々は,グローバルアプローチとして,NeRFモデルを効果的に登録できることを実証した。
論文 参考訳(メタデータ) (2023-05-22T09:08:46Z) - Implicit Ray-Transformers for Multi-view Remote Sensing Image
Segmentation [26.726658200149544]
スパースラベル付きRSシーンセマンティックセグメンテーションのためのインプリシティ・ニューラル表現(INR)に基づく「インプリシティ・レイ・トランスフォーマ(IRT)」を提案する。
提案手法は,2段階の学習プロセスを含む。第1段階では,リモートセンシングシーンの色と3次元構造を符号化するために,ニューラルネットワークを最適化する。
第2段階では、ニューラルネットワークの3D特徴と2Dテクスチャ特徴の関係を利用して、より優れた意味表現を学習するレイ変換器を設計する。
論文 参考訳(メタデータ) (2023-03-15T07:05:07Z) - SegNeRF: 3D Part Segmentation with Neural Radiance Fields [63.12841224024818]
SegNeRFは、通常の放射場とセマンティックフィールドを統合するニューラルネットワーク表現である。
SegNeRFは、未確認のオブジェクトであっても、ポーズされた画像から幾何学、外観、意味情報を同時に予測することができる。
SegNeRFは、野生で撮影されたオブジェクトの1つのイメージから、対応する部分のセグメンテーションによって、明示的な3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2022-11-21T07:16:03Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。