論文の概要: Can Language Understand Depth?
- arxiv url: http://arxiv.org/abs/2207.01077v1
- Date: Sun, 3 Jul 2022 16:51:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-07-05 13:33:36.565912
- Title: Can Language Understand Depth?
- Title(参考訳): 言語は深く理解できますか。
- Authors: Renrui Zhang, Ziyao Zeng, Ziyu Guo
- Abstract要約: 対照的に、CLIP(Contrastive Language- Image Pre-Training)は、幅広い視覚タスクにおいて素晴らしい成功を収めている。
DepthCLIPと呼ばれるゼロショット単眼深度推定にCLIPを適用することを提案する。
- 参考スコア(独自算出の注目度): 1.7403133838762446
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Besides image classification, Contrastive Language-Image Pre-training (CLIP)
has accomplished extraordinary success for a wide range of vision tasks,
including object-level and 3D space understanding. However, it's still
challenging to transfer semantic knowledge learned from CLIP into more
intricate tasks of quantified targets, such as depth estimation with geometric
information. In this paper, we propose to apply CLIP for zero-shot monocular
depth estimation, named DepthCLIP. We found that the patches of the input image
could respond to a certain semantic distance token and then be projected to a
quantified depth bin for coarse estimation. Without any training, our DepthCLIP
surpasses existing unsupervised methods and even approaches the early
fully-supervised networks. To our best knowledge, we are the first to conduct
zero-shot adaptation from the semantic language knowledge to quantified
downstream tasks and perform zero-shot monocular depth estimation. We hope our
work could cast a light on future research. The code is available at
https://github.com/Adonis-galaxy/DepthCLIP.
- Abstract(参考訳): 画像分類の他に、CLIP(Contrastive Language- Image Pre-Training)は、オブジェクトレベルや3D空間理解を含む幅広い視覚タスクにおいて、驚くべき成功を収めている。
しかし、CLIPから学んだセマンティック知識を、幾何情報による深さ推定など、定量化されたターゲットのより複雑なタスクに移行することは依然として困難である。
本稿では,DepthCLIPと呼ばれるゼロショット単眼深度推定にCLIPを適用することを提案する。
入力画像のパッチは、ある意味距離トークンに応答し、粗い推定のために定量化された深さビンに投影できることがわかった。
トレーニングなしでは、DepthCLIPは既存の教師なしの手法を超え、初期の完全教師付きネットワークにもアプローチします。
最善を尽くすために、我々はセマンティック言語知識からゼロショット適応を行い、下流タスクを定量化し、ゼロショット単眼深度推定を行う。
私たちの研究が将来の研究に光を当ててくれることを願っています。
コードはhttps://github.com/Adonis-galaxy/DepthCLIPで入手できる。
関連論文リスト
- CLIP Can Understand Depth [5.6138460823631835]
我々はCLIPを高密度予測による単眼深度推定の有意な品質に適応させる。
我々のモデルは、これまでの最先端のビジョンのみのモデルに匹敵する印象的な性能を示す。
論文 参考訳(メタデータ) (2024-02-05T18:09:33Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth
Pre-training [121.46758260964114]
3Dビジョンと言語を横断する事前トレーニングは、限られたトレーニングデータのため、まだ開発中である。
近年の研究では、視覚言語による事前学習モデルから3次元視覚への変換が試みられている。
PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。
本稿では,CLIPを3次元領域に転送するためのコントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。
論文 参考訳(メタデータ) (2022-10-03T16:13:14Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - P3Depth: Monocular Depth Estimation with a Piecewise Planarity Prior [133.76192155312182]
本研究では,コプラナー画素からの情報を選択的に活用して予測深度を改善する手法を提案する。
本手法の広範な評価により, 教師付き単分子深度推定法において, 新たな手法の確立が期待できる。
論文 参考訳(メタデータ) (2022-04-05T10:03:52Z) - SelfTune: Metrically Scaled Monocular Depth Estimation through
Self-Supervised Learning [53.78813049373321]
本稿では,事前学習した教師付き単分子深度ネットワークに対する自己教師付き学習手法を提案する。
本手法は移動ロボットナビゲーションなどの様々な応用に有用であり,多様な環境に適用可能である。
論文 参考訳(メタデータ) (2022-03-10T12:28:42Z) - PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。
PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文 参考訳(メタデータ) (2021-12-04T19:42:40Z) - ADAADepth: Adapting Data Augmentation and Attention for Self-Supervised
Monocular Depth Estimation [8.827921242078881]
深度向上を深度監督として活用し、正確で堅牢な深度を学習するADAAを提案します。
本稿では,リッチなコンテキスト特徴を学習し,さらに深度を向上するリレーショナル自己認識モジュールを提案する。
KITTI運転データセットの予測深度を評価し、最新の結果を実現します。
論文 参考訳(メタデータ) (2021-03-01T09:06:55Z) - Learning Depth via Leveraging Semantics: Self-supervised Monocular Depth
Estimation with Both Implicit and Explicit Semantic Guidance [34.62415122883441]
シーン認識深度推定のための暗黙的意味特徴と深度特徴とを一致させるセマンティック認識空間特徴アライメント方式を提案する。
また,推定深度マップを実シーンの文脈特性と整合性に明示的に制約する意味誘導型ランキング損失を提案する。
複雑なシーンや多様なセマンティックカテゴリで一貫して優れた、高品質な深度マップを作成します。
論文 参考訳(メタデータ) (2021-02-11T14:29:51Z) - Don't Forget The Past: Recurrent Depth Estimation from Monocular Video [92.84498980104424]
私たちは3つの異なる種類の深さ推定を共通のフレームワークに組み込んだ。
提案手法は, 時系列の深度マップを生成する。
モノクロビデオにのみ適用したり、異なる種類のスパース深度パターンと組み合わせたりすることができる。
論文 参考訳(メタデータ) (2020-01-08T16:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。