論文の概要: DepthCues: Evaluating Monocular Depth Perception in Large Vision Models
- arxiv url: http://arxiv.org/abs/2411.17385v1
- Date: Tue, 26 Nov 2024 12:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:34:54.319076
- Title: DepthCues: Evaluating Monocular Depth Perception in Large Vision Models
- Title(参考訳): DepthCues:大規模視覚モデルにおける単眼深度知覚の評価
- Authors: Duolikun Danier, Mehmet Aygün, Changjian Li, Hakan Bilen, Oisin Mac Aodha,
- Abstract要約: 本研究では,大規模な事前学習型視覚モデルにおいて,暗黙の深度監視を伴わない深度知覚がどのように起こるかを検討する。
深度キュー理解の評価を目的とした新しいベンチマークDepthCuesを導入する。
我々の分析は、より最近の大型モデルで人間のような深度が現れることを示している。
- 参考スコア(独自算出の注目度): 37.719313926298085
- License:
- Abstract: Large-scale pre-trained vision models are becoming increasingly prevalent, offering expressive and generalizable visual representations that benefit various downstream tasks. Recent studies on the emergent properties of these models have revealed their high-level geometric understanding, in particular in the context of depth perception. However, it remains unclear how depth perception arises in these models without explicit depth supervision provided during pre-training. To investigate this, we examine whether the monocular depth cues, similar to those used by the human visual system, emerge in these models. We introduce a new benchmark, DepthCues, designed to evaluate depth cue understanding, and present findings across 20 diverse and representative pre-trained vision models. Our analysis shows that human-like depth cues emerge in more recent larger models. We also explore enhancing depth perception in large vision models by fine-tuning on DepthCues, and find that even without dense depth supervision, this improves depth estimation. To support further research, our benchmark and evaluation code will be made publicly available for studying depth perception in vision models.
- Abstract(参考訳): 大規模な事前学習型視覚モデルはますます普及し、様々な下流タスクに利益をもたらす表現力と一般化可能な視覚表現を提供する。
これらのモデルの創発的特性に関する最近の研究は、特に深度知覚の文脈において、それらの高度な幾何学的理解を明らかにしている。
しかし、これらのモデルでは、事前訓練中に明示的な深度を監督することなく、どの程度の深度知覚が生じるかは定かではない。
そこで本研究では,人間の視覚系と類似した単眼深度が,これらのモデルに現れるかどうかを検討する。
そこで我々は,DepthCuesという,深度キュー理解のための新しいベンチマークを導入し,20種類の多種多様で代表的な視覚モデルにまたがる知見を提示する。
我々の分析は、より最近の大型モデルで人間のような深度が現れることを示している。
また,DepthCuesを微調整することにより,大規模視覚モデルにおける深度知覚の深度化も検討し,深度監視がなくても深度推定が向上することを確認した。
さらなる研究を支援するため、我々のベンチマークと評価コードは、視覚モデルにおける深度知覚を研究するために公開されている。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - Depth Insight -- Contribution of Different Features to Indoor
Single-image Depth Estimation [8.712751056826283]
単分子深度推定設定において、既知の深さのキューの相対的寄与を定量化する。
本研究は, 形状, テクスチャ, 色, 彩度の単一特徴を分離して, 深度を推定するために, 特徴抽出技術を用いた。
論文 参考訳(メタデータ) (2023-11-16T17:38:21Z) - Towards Explainability in Monocular Depth Estimation [1.7972023538959876]
本稿では,人間が深度をどう知覚するかという観点から,単分子深度推定法における説明可能性に着目した。
我々は、定義した文脈における説明可能性を間接的に評価するために、最先端の手法を試した。
その結果, 平均精度は約77%であることがわかった。
論文 参考訳(メタデータ) (2023-10-25T08:31:04Z) - Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - Improving Depth Estimation using Location Information [0.0]
本稿では,自己教師型深度学習法の改良を行い,高精度な単眼深度推定を行う。
主なアイデアは、異なるフレームのシーケンスを考慮に入れたディープモデルをトレーニングすることであり、各フレームはその位置情報でタグ付けされる。
論文 参考訳(メタデータ) (2021-12-27T22:30:14Z) - Pseudo Supervised Monocular Depth Estimation with Teacher-Student
Network [90.20878165546361]
疑似監視機構に基づく新しい教師なし深度推定手法を提案する。
これは、教師なしおよび教師なしの単分子深度推定の利点を戦略的に統合する。
実験の結果,提案手法はKITTIベンチマークの最先端性よりも優れていた。
論文 参考訳(メタデータ) (2021-10-22T01:08:36Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z) - Monocular Depth Estimation Based On Deep Learning: An Overview [16.2543991384566]
単一の画像から深度情報(眼深度推定)を推定することは不適切な問題である。
ディープラーニングは最近広く研究され、精度で有望なパフォーマンスを達成した。
深度推定の精度を向上させるために,様々な種類のネットワークフレームワーク,損失関数,トレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-03-14T12:35:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。