論文の概要: Neural Camera Models
- arxiv url: http://arxiv.org/abs/2208.12903v1
- Date: Sat, 27 Aug 2022 01:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 13:45:30.389648
- Title: Neural Camera Models
- Title(参考訳): ニューラルカメラモデル
- Authors: Igor Vasiljevic
- Abstract要約: 機械学習支援深度推定または深度推定は、画像中の各画素が撮像されたシーンポイントまでの距離を予測する。
この論文では、これらの仮定を緩和することに集中し、カメラを真に汎用的な深度センサーに変えるという究極の目標への貢献について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern computer vision has moved beyond the domain of internet photo
collections and into the physical world, guiding camera-equipped robots and
autonomous cars through unstructured environments. To enable these embodied
agents to interact with real-world objects, cameras are increasingly being used
as depth sensors, reconstructing the environment for a variety of downstream
reasoning tasks. Machine-learning-aided depth perception, or depth estimation,
predicts for each pixel in an image the distance to the imaged scene point.
While impressive strides have been made in depth estimation, significant
challenges remain: (1) ground truth depth labels are difficult and expensive to
collect at scale, (2) camera information is typically assumed to be known, but
is often unreliable and (3) restrictive camera assumptions are common, even
though a great variety of camera types and lenses are used in practice. In this
thesis, we focus on relaxing these assumptions, and describe contributions
toward the ultimate goal of turning cameras into truly generic depth sensors.
- Abstract(参考訳): 現代のコンピュータビジョンは、インターネットの写真収集の領域を超えて物理的世界へと移行し、カメラを搭載したロボットや自動運転車を非構造化環境に導く。
これらの具体化エージェントが現実世界の物体と対話できるようにするため、カメラは深度センサーとして使われ、下流の様々な推論タスクの環境を再構築している。
機械学習支援深度知覚(deep Estimation)は、画像中の各画素が画像化されたシーンポイントまでの距離を予測する。
奥行き推定では印象的な進歩が見られたが,(1)奥行きラベルの収集は困難で費用がかかる,(2)カメラ情報は一般的には分かっていないと仮定される,(3)カメラの種類やレンズが多種多様であっても,カメラの仮定が一般的である,など,大きな課題が残っている。
本論文では,これらの仮定を緩和することに焦点を当て,カメラを真に汎用的な深度センサにするという究極の目標に向けての貢献について述べる。
関連論文リスト
- 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - Prototipo de un Contador Bidireccional Automático de Personas basado en sensores de visión 3D [39.58317527488534]
RGB-Dセンサーとしても知られる3Dセンサーは、深度画像を利用して、各ピクセルがカメラから物体までの距離を測定する。
プロトタイプはRGB-Dセンサーを使って、スタジアムや空港などの空間におけるセキュリティと監視を支援する。
このシステムには、RealSense D415奥行きカメラと、人物をカウントするオブジェクト検出アルゴリズムを実行するミニコンピュータと、身元確認のための2Dカメラが含まれている。
論文 参考訳(メタデータ) (2024-03-18T23:18:40Z) - Applications of Deep Learning for Top-View Omnidirectional Imaging: A
Survey [2.1485350418225244]
大きな視野の魚眼カメラは、下向きの高位置に設置されている場合、最小限のカメラで大きな領域を撮影することができる。
このトップビュー全方位設定は、従来の複数の視点カメラによるソリューションと比較して、デプロイメントの作業とコストを大幅に削減します。
深層学習は、全方位設定を含む視覚関連タスクに広く利用されている。
論文 参考訳(メタデータ) (2023-04-17T12:06:41Z) - Deep Learning for Event-based Vision: A Comprehensive Survey and Benchmarks [55.81577205593956]
イベントカメラはバイオインスパイアされたセンサーで、ピクセルごとの強度の変化を非同期に捉える。
深層学習(DL)はこの新興分野に導入され、その可能性のマイニングに活発な研究努力にインスピレーションを与えている。
論文 参考訳(メタデータ) (2023-02-17T14:19:28Z) - Learning Active Camera for Multi-Object Navigation [94.89618442412247]
ロボットアプリケーションでは、ロボットが複数のオブジェクトに自律的にナビゲートすることが不可欠だが、難しい。
既存のナビゲーション手法は主に固定カメラに焦点を当てており、アクティブカメラでナビゲートする試みはほとんど行われていない。
本稿では,アクティブカメラを用いて,複数の物体へのナビゲーションをより効率的に行うことを検討する。
論文 参考訳(メタデータ) (2022-10-14T04:17:30Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Full Surround Monodepth from Multiple Cameras [31.145598985137468]
自己監督単眼深度と自我運動推定を大型フォトベースラインマルチカメラリグに拡張します。
私たちは、典型的なLiDARスキャナーと同じ全周360度の視野をカバーする、高密度で一貫性のあるスケールアウェアポイントクラウドを生成する単一のネットワークを学びます。
論文 参考訳(メタデータ) (2021-03-31T22:52:04Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。