論文の概要: Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2311.01034v1
- Date: Thu, 2 Nov 2023 06:56:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 14:27:31.502194
- Title: Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation
- Title(参考訳): 単眼単眼深度推定のためのCLIP適応学習
- Authors: Xueting Hu, Ce Zhang, Yi Zhang, Bowen Hai, Ke Yu, Zhihai He
- Abstract要約: 単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
- 参考スコア(独自算出の注目度): 31.34615135846137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Vision-Language Models (VLMs), such as CLIP, have shown enhanced
performance across a range of tasks that involve the integration of visual and
linguistic modalities. When CLIP is used for depth estimation tasks, the
patches, divided from the input images, can be combined with a series of
semantic descriptions of the depth information to obtain similarity results.
The coarse estimation of depth is then achieved by weighting and summing the
depth values, called depth bins, corresponding to the predefined semantic
descriptions. The zero-shot approach circumvents the computational and
time-intensive nature of traditional fully-supervised depth estimation methods.
However, this method, utilizing fixed depth bins, may not effectively
generalize as images from different scenes may exhibit distinct depth
distributions. To address this challenge, we propose a few-shot-based method
which learns to adapt the VLMs for monocular depth estimation to balance
training costs and generalization capabilities. Specifically, it assigns
different depth bins for different scenes, which can be selected by the model
during inference. Additionally, we incorporate learnable prompts to preprocess
the input text to convert the easily human-understood text into easily
model-understood vectors and further enhance the performance. With only one
image per scene for training, our extensive experiment results on the NYU V2
and KITTI dataset demonstrate that our method outperforms the previous
state-of-the-art method by up to 10.6\% in terms of MARE.
- Abstract(参考訳): CLIPのような事前訓練されたビジョンランゲージモデル(VLM)は、視覚的および言語的モダリティの統合を含む様々なタスクにおいて、パフォーマンスが向上している。
CLIPが深度推定タスクに使用される場合、入力画像から分割されたパッチと深度情報の一連の意味記述を組み合わせて類似性結果を得ることができる。
深さの粗い推定は、事前定義された意味記述に対応する深さビンと呼ばれる深さ値の重み付けと和によって達成される。
ゼロショットアプローチは、従来の完全教師付き深度推定手法の計算的および時間的集約性を回避している。
しかし, 固定深度ビンを用いたこの手法は, 異なるシーンの画像から異なる深度分布を示すため, 効果的に一般化できない。
そこで本研究では,単眼深度推定にvlmを応用し,トレーニングコストと一般化能力のバランスをとることを学ぶ。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
さらに、学習可能なプロンプトを組み込んで、入力テキストを事前処理し、容易に理解されたテキストを、容易にモデル化できるベクターに変換し、さらにパフォーマンスを向上させる。
トレーニング用シーンあたりの1つの画像のみを用いて、NYU V2およびKITTIデータセットでの広範な実験結果により、我々の手法がMAREの観点で10.6\%まで先行した最先端の手法より優れていることが示された。
関連論文リスト
- ScaleDepth: Decomposing Metric Depth Estimation into Scale Prediction and Relative Depth Estimation [62.600382533322325]
本研究では,新しい単分子深度推定法であるScaleDepthを提案する。
提案手法は,距離深度をシーンスケールと相対深度に分解し,セマンティック・アウェア・スケール予測モジュールを用いて予測する。
本手法は,室内と屋外の両方のシーンを統一した枠組みで距離推定する。
論文 参考訳(メタデータ) (2024-07-11T05:11:56Z) - CLIP Can Understand Depth [5.6138460823631835]
我々はCLIPを高密度予測による単眼深度推定の有意な品質に適応させる。
我々のモデルは、これまでの最先端のビジョンのみのモデルに匹敵する印象的な性能を示す。
論文 参考訳(メタデータ) (2024-02-05T18:09:33Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - Boosting Weakly Supervised Object Detection using Fusion and Priors from
Hallucinated Depth [33.66537809438079]
弱教師付き物体検出(WSOD)の性能向上のための増幅器手法を提案する。
言語コンテキストと深さの関係を解析することにより、関心の対象を含む可能性のある境界ボックスの提案を識別するために、深さを計算します。
提案手法は,最新の2つのWSOD法上に実装することで,6つのデータセットに対して評価を行う。
論文 参考訳(メタデータ) (2023-03-20T08:26:29Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Monocular Depth Estimation Using Cues Inspired by Biological Vision
Systems [22.539300644593936]
単眼深度推定(MDE)は、シーンのRGB画像を同じカメラビューから画素幅の深度マップに変換することを目的としている。
MDEタスクの一部は、画像内のどの視覚的手がかりを深度推定に使用できるか、どのように使うかを学ぶことである。
モデルに視覚的キュー情報を明示的に注入することは深度推定に有用であることを示す。
論文 参考訳(メタデータ) (2022-04-21T19:42:36Z) - X-Distill: Improving Self-Supervised Monocular Depth via Cross-Task
Distillation [69.9604394044652]
そこで本研究では,クロスタスク知識蒸留による単眼深度の自己指導的訓練を改善する手法を提案する。
トレーニングでは,事前訓練されたセマンティックセグメンテーション教師ネットワークを使用し,そのセマンティック知識を深度ネットワークに転送する。
提案手法の有効性をKITTIベンチマークで評価し,最新技術と比較した。
論文 参考訳(メタデータ) (2021-10-24T19:47:14Z) - ADAADepth: Adapting Data Augmentation and Attention for Self-Supervised
Monocular Depth Estimation [8.827921242078881]
深度向上を深度監督として活用し、正確で堅牢な深度を学習するADAAを提案します。
本稿では,リッチなコンテキスト特徴を学習し,さらに深度を向上するリレーショナル自己認識モジュールを提案する。
KITTI運転データセットの予測深度を評価し、最新の結果を実現します。
論文 参考訳(メタデータ) (2021-03-01T09:06:55Z) - DiverseDepth: Affine-invariant Depth Prediction Using Diverse Data [110.29043712400912]
本稿では,アフィン変換に至るまでの多様なシーンにおける高品質な深度を予測できるモノクロ画像を用いた深度推定手法を提案する。
実験の結果,提案手法は,ゼロショットテスト設定と大差で8つのデータセットの先行手法より優れていた。
論文 参考訳(メタデータ) (2020-02-03T05:38:33Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。