論文の概要: Pose2RGBD. Generating Depth and RGB images from absolute positions
- arxiv url: http://arxiv.org/abs/2007.07013v1
- Date: Tue, 14 Jul 2020 13:07:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 15:18:24.847363
- Title: Pose2RGBD. Generating Depth and RGB images from absolute positions
- Title(参考訳): Pose2RGB。
絶対位置からの深度とrgb画像の生成
- Authors: Mihai Cristian P\^irvu
- Abstract要約: 本稿では,これまで見てきた映像,深度,ポーズ信号に基づいてRGBD画像を自動的に生成する手法を提案する。
このプロセスは、生成されたシーンをナビゲートするために使用できる関数 f : Pose -> RGBD を得るニューラルレンダリングと考えることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We propose a method at the intersection of Computer Vision and Computer
Graphics fields, which automatically generates RGBD images using neural
networks, based on previously seen and synchronized video, depth and pose
signals. Since the models must be able to reconstruct both texture (RGB) and
structure (Depth), it creates an implicit representation of the scene, as
opposed to explicit ones, such as meshes or point clouds. The process can be
thought of as neural rendering, where we obtain a function f : Pose -> RGBD,
which we can use to navigate through the generated scene, similarly to graphics
simulations. We introduce two new datasets, one based on synthetic data with
full ground truth information, while the other one being recorded from a drone
flight in an university campus, using only video and GPS signals. Finally, we
propose a fully unsupervised method of generating datasets from videos alone,
in order to train the Pose2RGBD networks. Code and datasets are available at::
https://gitlab.com/mihaicristianpirvu/pose2rgbd.
- Abstract(参考訳): 本稿では,ニューラルネットワークを用いてrgbd画像を自動的に生成するコンピュータビジョンとコンピュータグラフィックスの交点における手法を提案する。
モデルはテクスチャ(RGB)と構造(Depth)の両方を再構築できなければならないため、メッシュやポイントクラウドのような明示的な表現とは対照的に、シーンの暗黙的な表現を生成する。
このプロセスはニューラルレンダリング(Neural rendering)とみなすことができ、この関数 f : Pose -> RGBD は、グラフィックシミュレーションと同様、生成されたシーンをナビゲートするために使用できる。
本稿では2つの新しいデータセットについて紹介する。1つは合成データに基づくデータで,もう1つは映像とgps信号のみを用いて,大学キャンパスのドローン飛行から記録する。
最後に,Pose2RGBDネットワークをトレーニングするために,ビデオのみからデータセットを生成する教師なしの手法を提案する。
コードとデータセットは: https://gitlab.com/mihaicristianpirvu/pose2rgbd。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - DFormer: Rethinking RGBD Representation Learning for Semantic
Segmentation [76.81628995237058]
DFormerは、RGB-Dセグメンテーションタスクの転送可能な表現を学ぶための新しいフレームワークである。
ImageNet-1Kから画像深度ペアを使用してバックボーンを事前トレーニングする。
DFormerは2つのRGB-Dタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-09-18T11:09:11Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - Talking Head from Speech Audio using a Pre-trained Image Generator [5.659018934205065]
音声音声と1つの「同一性」画像から音声の高精細度映像を生成する手法を提案する。
我々は、各フレームをStyleGANの潜在空間の点としてモデル化し、ビデオが潜在空間の軌跡に対応するようにした。
我々は、音声発話から画像生成装置の潜時空間の変位へマッピングするために、繰り返しニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-09-09T11:20:37Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Scale Invariant Semantic Segmentation with RGB-D Fusion [12.650574326251023]
RGB-D画像を用いたスケール不変セマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを提案する。
画素単位のセマンティックセグメンテーションのためのRGBデータに深度情報を組み込んで,屋外シーンにおける異なるスケールオブジェクトに対処する。
我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2022-04-10T12:54:27Z) - RayTran: 3D pose estimation and shape reconstruction of multiple objects
from videos with ray-traced transformers [41.499325832227626]
RGBビデオからの多目的3D再構成のためのトランスフォーマーベースニューラルネットワークアーキテクチャを提案する。
我々は、画像形成過程に関する知識を活用して、注意重み行列を著しく分散させる。
従来の手法と比較して、アーキテクチャは単一ステージであり、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2022-03-24T18:49:12Z) - FFB6D: A Full Flow Bidirectional Fusion Network for 6D Pose Estimation [54.666329929930455]
単一RGBD画像からの6次元ポーズ推定のための双方向融合ネットワークであるFFB6Dを提案する。
表現学習と出力表現選択のための表現情報と幾何学情報を組み合わせることを学ぶ。
提案手法は,いくつかのベンチマークにおいて,最先端の手法よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-03-03T08:07:29Z) - CycleISP: Real Image Restoration via Improved Data Synthesis [166.17296369600774]
本稿では,前向きと逆方向のカメラ画像パイプラインをモデル化するフレームワークを提案する。
リアルな合成データに基づいて新しい画像認識ネットワークをトレーニングすることにより、実際のカメラベンチマークデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-03-17T15:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。