論文の概要: OmniSCV: An Omnidirectional Synthetic Image Generator for Computer
Vision
- arxiv url: http://arxiv.org/abs/2401.17061v1
- Date: Tue, 30 Jan 2024 14:40:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 14:44:09.651053
- Title: OmniSCV: An Omnidirectional Synthetic Image Generator for Computer
Vision
- Title(参考訳): OmniSCV:コンピュータビジョンのための全方向合成画像生成装置
- Authors: Bruno Berenguel-Baeta and Jesus Bermudez-Cameo and Jose J. Guerrero
- Abstract要約: 本稿では,全方位画像のデータセットを意味情報と深度情報で生成するツールを提案する。
これらの画像は、Unreal Engine 4のリアルな仮想環境で取得された一連のキャプチャから合成される。
ツールには、非中央パノラマおよび非中央カタディオプトリシステムとして、フォトリアリスティックな非中央プロジェクションシステムが含まれています。
- 参考スコア(独自算出の注目度): 5.2178708158547025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omnidirectional and 360{\deg} images are becoming widespread in industry and
in consumer society, causing omnidirectional computer vision to gain attention.
Their wide field of view allows the gathering of a great amount of information
about the environment from only an image. However, the distortion of these
images requires the development of specific algorithms for their treatment and
interpretation. Moreover, a high number of images is essential for the correct
training of computer vision algorithms based on learning. In this paper, we
present a tool for generating datasets of omnidirectional images with semantic
and depth information. These images are synthesized from a set of captures that
are acquired in a realistic virtual environment for Unreal Engine 4 through an
interface plugin. We gather a variety of well-known projection models such as
equirectangular and cylindrical panoramas, different fish-eye lenses,
catadioptric systems, and empiric models. Furthermore, we include in our tool
photorealistic non-central-projection systems as non-central panoramas and
non-central catadioptric systems. As far as we know, this is the first reported
tool for generating photorealistic non-central images in the literature.
Moreover, since the omnidirectional images are made virtually, we provide
pixel-wise information about semantics and depth as well as perfect knowledge
of the calibration parameters of the cameras. This allows the creation of
ground-truth information with pixel precision for training learning algorithms
and testing 3D vision approaches. To validate the proposed tool, different
computer vision algorithms are tested as line extractions from dioptric and
catadioptric central images, 3D Layout recovery and SLAM using equirectangular
panoramas, and 3D reconstruction from non-central panoramas.
- Abstract(参考訳): 全方位および360{\deg}画像は、産業や消費者社会に広まり、全方位コンピュータビジョンが注目を集めている。
彼らの視野は広いため、画像だけから環境に関する情報を大量に集めることができる。
しかし、これらの画像の歪みは、その処理と解釈のための特定のアルゴリズムの開発を必要とする。
さらに,学習に基づくコンピュータビジョンアルゴリズムの正しいトレーニングには,多数の画像が不可欠である。
本稿では,全方位画像のデータセットを意味情報と深度情報で生成するツールを提案する。
これらの画像は、インターフェースプラグインを通じてUnreal Engine 4のリアルな仮想環境で取得される一連のキャプチャから合成される。
我々は, 等角および円筒パノラマ, 異なる魚眼レンズ, カタジオプティカルシステム, 経験モデルなど, 様々な有名な投影モデルを集めた。
さらに,本ツールでは,非中央パノラマ・非中央投射系として光リアリスティック非中央投射系を含む。
われわれの知る限りでは、このツールは文学における写真リアリスティックな非中央画像を生成する最初のツールだ。
さらに、全方位画像は事実上作成されるので、セマンティクスや深度に関する画素情報や、カメラの校正パラメータの完全な知識を提供する。
これにより、学習アルゴリズムのトレーニングと3d視覚アプローチのテストのために、ピクセル精度で地中情報を作成できる。
提案ツールを検証するために,2次元および3次元中心画像からの線抽出,等角パノラマを用いた3次元レイアウト回収,SLAM,非中央パノラマからの3次元再構成など,異なるコンピュータビジョンアルゴリズムを試験した。
関連論文リスト
- Incorporating dense metric depth into neural 3D representations for view synthesis and relighting [25.028859317188395]
ロボット応用では、密度の深い距離の深さをステレオで直接測定することができ、照明を制御できる。
本研究は,ニューラルネットワークによる3次元表現のトレーニングに高密度な距離深度を組み込む手法を実証する。
また、パイプラインに必要なデータを取得し、リライティングとビュー合成の結果を示すために開発されたマルチフラッシュステレオカメラシステムについても論じる。
論文 参考訳(メタデータ) (2024-09-04T20:21:13Z) - MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field [1.3162012586770577]
深層学習全方位深度推定と新しいビュー合成を組み合わせたMSI-NeRFを提案する。
入力画像の特徴抽出とワープにより,コストボリュームとして多面体画像を構築する。
ネットワークには,4つの画像のみを用いて未知のシーンを効率的に再構築する一般化機能がある。
論文 参考訳(メタデータ) (2024-03-16T07:26:50Z) - Calibrating Panoramic Depth Estimation for Practical Localization and
Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。
本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文 参考訳(メタデータ) (2023-08-27T04:50:05Z) - altiro3D: Scene representation from single image and novel view
synthesis [0.0]
altiro3Dは、元のRGB画像やフラットビデオから始まる現実を表現するために開発されたライブラリである。
ライトフィールド(あるいはネイティブ)の画像やビデオを生成して、リアルな3D体験を得られる。
論文 参考訳(メタデータ) (2023-04-02T16:03:44Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Neural Reflectance Fields for Appearance Acquisition [61.542001266380375]
シーン内の任意の3次元点における体積密度, 正規および反射特性をエンコードする新しい深部シーン表現であるニューラルリフレクタンス場を提案する。
我々はこの表現を、任意の視点と光の下でニューラルリフレクタンスフィールドから画像を描画できる物理的にベースとした微分可能光線マーチングフレームワークと組み合わせる。
論文 参考訳(メタデータ) (2020-08-09T22:04:36Z) - SAILenv: Learning in Virtual Visual Environments Made Simple [16.979621213790015]
仮想3Dシーンで視覚認識を実験できる新しいプラットフォームを提案する。
すべてのアルゴリズムを仮想世界とインターフェースするためには数行のコードが必要であり、非3Dグラフィックの専門家は容易に3D環境自体をカスタマイズできる。
我々のフレームワークはピクセルレベルのセマンティクスとインスタンスのラベル付け、深さ、そして私たちの知る限り、それは3Dエンジンから直接受け継がれるモーション関連情報を提供する唯一のものである。
論文 参考訳(メタデータ) (2020-07-16T09:50:23Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。