論文の概要: FoVA-Depth: Field-of-View Agnostic Depth Estimation for Cross-Dataset
Generalization
- arxiv url: http://arxiv.org/abs/2401.13786v1
- Date: Wed, 24 Jan 2024 20:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:39:50.293313
- Title: FoVA-Depth: Field-of-View Agnostic Depth Estimation for Cross-Dataset
Generalization
- Title(参考訳): FoVA-Depth: クロスデータセット一般化のための視野非依存深さ推定
- Authors: Daniel Lichy, Hang Su, Abhishek Badki, Jan Kautz, Orazio Gallo
- Abstract要約: 本研究では,広く利用可能なピンホールデータに基づいてステレオ深度推定モデルを訓練する手法を提案する。
屋内および屋外の両方のデータセットに対するアプローチの強力な一般化能力を示す。
- 参考スコア(独自算出の注目度): 57.98448472585241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wide field-of-view (FoV) cameras efficiently capture large portions of the
scene, which makes them attractive in multiple domains, such as automotive and
robotics. For such applications, estimating depth from multiple images is a
critical task, and therefore, a large amount of ground truth (GT) data is
available. Unfortunately, most of the GT data is for pinhole cameras, making it
impossible to properly train depth estimation models for large-FoV cameras. We
propose the first method to train a stereo depth estimation model on the widely
available pinhole data, and to generalize it to data captured with larger FoVs.
Our intuition is simple: We warp the training data to a canonical, large-FoV
representation and augment it to allow a single network to reason about diverse
types of distortions that otherwise would prevent generalization. We show
strong generalization ability of our approach on both indoor and outdoor
datasets, which was not possible with previous methods.
- Abstract(参考訳): 広視野視野カメラ(FoV)はシーンの大部分を効率よく捉え、自動車やロボティクスなどの複数の領域で魅力的になる。
このようなアプリケーションでは、複数の画像から深度を推定することが重要な課題であるため、大量の基底真理データ(GT)が利用可能である。
残念ながら、gtデータはピンホールカメラ用なので、大型カメラの深度推定モデルを適切に訓練することは不可能です。
本稿では,広く利用可能なピンホールデータに基づいてステレオ深度推定モデルをトレーニングし,より大規模なFoVで取得したデータに一般化する手法を提案する。
トレーニングデータを標準的かつ大規模なFoV表現にワープし、それを拡張して、1つのネットワークが一般化を阻止する様々な種類の歪みを推論できるようにします。
従来の手法では不可能であった屋内および屋外両方のデータセットに対するアプローチの強い一般化能力を示す。
関連論文リスト
- GRAPE: Generalizable and Robust Multi-view Facial Capture [12.255610707737548]
ディープラーニングベースのマルチビュー顔キャプチャ手法は、従来のメッシュ登録パイプラインよりも数桁高速で、印象的な精度を示している。
本研究では,異なるカメラアレイ上での推論(すなわち,新しいデータをキャプチャする)に訓練されたモデルを容易に利用できるように,一般化能力を向上させることを目的とする。
FaMoSデータセットとFaceScapeデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-14T13:24:17Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Weakly Supervised Training of Monocular 3D Object Detectors Using Wide
Baseline Multi-view Traffic Camera Data [19.63193201107591]
交差点における車両の7DoF予測は,道路利用者間の潜在的な衝突を評価する上で重要な課題である。
交通監視カメラ用3次元物体検出装置の微調整を弱教師付きで行う手法を開発した。
提案手法は,自動運転車のデータセット上で最上位のモノクル3Dオブジェクト検出器と同等の精度で車両の7DoFの予測精度を推定する。
論文 参考訳(メタデータ) (2021-10-21T08:26:48Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z) - Wide-angle Image Rectification: A Survey [86.36118799330802]
広角画像は、基礎となるピンホールカメラモデルに反する歪みを含む。
これらの歪みを補正することを目的とした画像修正は、これらの問題を解決することができる。
本稿では、異なるアプローチで使用されるカメラモデルについて、詳細な説明と議論を行う。
次に,従来の幾何学に基づく画像修正手法と深層学習法の両方について検討する。
論文 参考訳(メタデータ) (2020-10-30T17:28:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。