Fugu-MT 論文翻訳(概要): Unsupervised Learning of Depth and Ego-Motion from Cylindrical Panoramic Video with Applications for Virtual Reality

論文の概要: Unsupervised Learning of Depth and Ego-Motion from Cylindrical Panoramic Video with Applications for Virtual Reality

arxiv url: http://arxiv.org/abs/2010.07704v2
Date: Tue, 10 Nov 2020 00:35:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 13:10:08.118732
Title: Unsupervised Learning of Depth and Ego-Motion from Cylindrical Panoramic Video with Applications for Virtual Reality
Title（参考訳）: 円筒状パノラマ映像からの奥行き・自我運動の教師なし学習と仮想現実への応用
Authors: Alisha Sharma, Ryan Nett, and Jonathan Ventura
Abstract要約: 円筒型パノラマビデオからの深度とエゴモーションの教師なし学習のための畳み込みニューラルネットワークモデルを提案する。パノラマ深度推定は、仮想現実、3Dモデリング、自律型ロボットナビゲーションといったアプリケーションにとって重要な技術である。
参考スコア（独自算出の注目度）: 2.294014185517203
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a convolutional neural network model for unsupervised learning of depth and ego-motion from cylindrical panoramic video. Panoramic depth estimation is an important technology for applications such as virtual reality, 3D modeling, and autonomous robotic navigation. In contrast to previous approaches for applying convolutional neural networks to panoramic imagery, we use the cylindrical panoramic projection which allows for the use of the traditional CNN layers such as convolutional filters and max pooling without modification. Our evaluation of synthetic and real data shows that unsupervised learning of depth and ego-motion on cylindrical panoramic images can produce high-quality depth maps and that an increased field-of-view improves ego-motion estimation accuracy. We create two new datasets to evaluate our approach: a synthetic dataset created using the CARLA simulator, and Headcam, a novel dataset of panoramic video collected from a helmet-mounted camera while biking in an urban setting. We also apply our network to the problem of converting monocular panoramas to stereo panoramas.
Abstract（参考訳）: 円筒型パノラマビデオからの深度とエゴモーションの教師なし学習のための畳み込みニューラルネットワークモデルを提案する。パノラマ深度推定は、仮想現実、3dモデリング、自律ロボットナビゲーションなどのアプリケーションにとって重要な技術である。パノラマ画像に畳み込みニューラルネットワークを適用する従来のアプローチとは対照的に,我々は,畳み込みフィルタや最大プールなどの従来のCNNレイヤを変更せずに使用できる円筒型パノラマ投影を用いている。合成および実データを用いた評価では, 円筒型パノラマ画像の深度とエゴモーションの教師なし学習が高品質な深度マップを作成でき, 視野の増大によりエゴモーション推定精度が向上することが示された。 CARLAシミュレータを使って作成した合成データセットと、ヘルメットを装着したカメラから収集したパノラマビデオの新たなデータセットであるHeadcamの2つの新しいデータセットを作成し、都市環境でサイクリングを行った。また,このネットワークを,単眼パノラマをステレオパノラマに変換する問題に適用する。

関連論文リスト

ViewPoint: Panoramic Video Generation with Pretrained Diffusion Models [52.87334248847314]
本研究では,パノラマ映像の生成に事前学習した視点映像モデルを用いた新しいフレームワークを提案する。具体的には,世界空間の連続性と細かな視覚的詳細を同時に持つビューポイントマップという新しいパノラマ表現を設計する。提案手法は,パノラマ映像を高度にダイナミックかつ空間的に一貫したパノラマ映像を合成し,最先端の性能を達成し,従来の手法を超越することができる。
論文参考訳（メタデータ） (2025-06-30T04:33:34Z)
SpatialCrafter: Unleashing the Imagination of Video Diffusion Models for Scene Reconstruction from Limited Observations [44.53106180688135]
この作業は、スパースやシングルビューのインプットから3Dシーンを再構築する上での課題である。 SpatialCrafterは,ビデオ拡散モデルにおける豊富な知識を活用して,可算的な追加観測を生成するフレームワークである。トレーニング可能なカメラエンコーダと、明示的な幾何学的制約に対するエピポーラアテンション機構により、精密なカメラ制御と3D整合性を実現する。
論文参考訳（メタデータ） (2025-05-17T13:05:13Z)
Omnidirectional Depth-Aided Occupancy Prediction based on Cylindrical Voxel for Autonomous Driving [7.3709535266926025]
事前導入には全方位深度推定を用いる。また、偏光座標に基づく円筒型ボクセル表現を導入し、パノラマカメラビューとの整合性を向上する。実験の結果,Sketch- Networkは3次元知覚性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2025-03-26T00:07:21Z)
DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文参考訳（メタデータ） (2024-06-17T21:15:13Z)
MSI-NeRF: Linking Omni-Depth with View Synthesis through Multi-Sphere Image aided Generalizable Neural Radiance Field [1.3162012586770577]
深層学習全方位深度推定と新しいビュー合成を組み合わせたMSI-NeRFを提案する。入力画像の特徴抽出とワープにより,コストボリュームとして多面体画像を構築する。ネットワークには,4つの画像のみを用いて未知のシーンを効率的に再構築する一般化機能がある。
論文参考訳（メタデータ） (2024-03-16T07:26:50Z)
OmniSCV: An Omnidirectional Synthetic Image Generator for Computer Vision [5.2178708158547025]
本稿では,全方位画像のデータセットを意味情報と深度情報で生成するツールを提案する。これらの画像は、Unreal Engine 4のリアルな仮想環境で取得された一連のキャプチャから合成される。ツールには、非中央パノラマおよび非中央カタディオプトリシステムとして、フォトリアリスティックな非中央プロジェクションシステムが含まれています。
論文参考訳（メタデータ） (2024-01-30T14:40:19Z)
Calibrating Panoramic Depth Estimation for Practical Localization and Mapping [20.621442016969976]
周囲環境の絶対深度値は, 局所化, ナビゲーション, 3次元構造推定など, 様々な補助技術にとって重要な手がかりとなる。本研究では,パノラマ画像から推定される精度の高い深度が,3次元情報を必要とする幅広い下流タスクに対して,強力で軽量な入力として機能することを提案する。
論文参考訳（メタデータ） (2023-08-27T04:50:05Z)
NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models [85.20004959780132]
複雑な3D環境を合成できる生成モデルであるNeuralField-LDMを紹介する。 NeuralField-LDMは,条件付きシーン生成,シーンインペインティング,シーンスタイル操作など,さまざまな3Dコンテンツ作成アプリケーションに利用できることを示す。
論文参考訳（メタデータ） (2023-04-19T16:13:21Z)
Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic Images in Facial Capture Pipelines [8.366597450893456]
我々は、パーソナライズされたアプリ内ビデオデータから3次元顔モデルを構築し、追跡するためのエンドツーエンドパイプラインを提案する。本稿では,従来のコンピュータグラフィックスパイプラインにおける衝突アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索手法を提案する。我々は、前述の技術を活用して、現実の地上真実データの必要性を回避するために、モーションキャプチャ回帰器のトレーニング方法を概説する。
論文参考訳（メタデータ） (2022-04-22T15:09:49Z)
SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2022-04-07T17:58:47Z)
TANDEM: Tracking and Dense Mapping in Real-time using Deep Multi-view Stereo [55.30992853477754]
本稿では,リアルタイムな単分子追跡と高密度フレームワークであるTANDEMを紹介する。ポーズ推定のために、TANDEMはアライメントのスライディングウィンドウに基づいて光度バンドル調整を行う。 TANDEMは最先端のリアルタイム3D再構成性能を示す。
論文参考訳（メタデータ） (2021-11-14T19:01:02Z)
Neural Ray Surfaces for Self-Supervised Learning of Depth and Ego-motion [51.19260542887099]
カメラモデルの事前知識を必要とせずに、自己超越を用いて正確な深度とエゴモーション推定を学習できることが示される。 Grossberg と Nayar の幾何学モデルにインスパイアされた我々は、ピクセルワイド射影線を表す畳み込みネットワークである Neural Ray Surfaces (NRS) を導入する。本研究では,多種多様なカメラシステムを用いて得られた生ビデオから,視覚計測の自己教師付き学習と深度推定にNRSを用いることを実証する。
論文参考訳（メタデータ） (2020-08-15T02:29:13Z)
Deep 3D Capture: Geometry and Reflectance from Sparse Multi-View Images [59.906948203578544]
本稿では,任意の物体の高品質な形状と複雑な空間変化を持つBRDFを再構成する学習に基づく新しい手法を提案する。まず、深層多視点ステレオネットワークを用いて、ビューごとの深度マップを推定する。これらの深度マップは、異なるビューを粗く整列するために使用される。本稿では,新しい多視点反射率推定ネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-03-27T21:28:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。