論文の概要: CLIP Can Understand Depth
- arxiv url: http://arxiv.org/abs/2402.03251v2
- Date: Wed, 24 Sep 2025 14:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.432466
- Title: CLIP Can Understand Depth
- Title(参考訳): CLIPは深さを理解できる
- Authors: Sohee Kim, Jisu Kang, Dunam Kim, Seokju Lee,
- Abstract要約: CLIPは、Webcrawledデータによる事前学習中に、その視覚言語アライメントを最適に学習する下流タスクに適応できることを示す。
凍結したテキストエンコーダの前のセマンティクスを「ミラー」と呼ばれる単一の学習可能な埋め込み行列に蒸留する。
その結果得られたモデルは印象的なパフォーマンスを示し、NYU Depth v2とKITTIベンチマークデータセットの最先端のビジョンモデルにマッチする。
- 参考スコア(独自算出の注目度): 6.877245323116022
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper, we demonstrate that CLIP can also be adapted to downstream tasks where its vision-language alignment is suboptimally learned during pre-training on web-crawled data, all without requiring fine-tuning. We explore the case of monocular depth estimation, where CLIP's contrastive prior struggles to generalize, compared to its success in domains such as generative modeling and semantic segmentation. Since CLIP fails to consistently capture similarities between image patches and natural language prompts describing distance, we eliminate the use of its pre-trained natural language token embeddings and distill the semantic prior of its frozen text encoder into a single learnable embedding matrix called "mirror". The main design goal of mirror is to derive a non-human language prompt that approximates an optimal natural language prompt: "How far is this location from the camera?" Using this approach, we jointly train two lightweight modules, a mirror and a compact decoder, on top of a frozen CLIP for dense depth prediction. Compared to conventional depth models, our framework is significantly more efficient in terms of parameters and computation. The resulting model exhibits impressive performance, matching several state-of-the-art vision models on the NYU Depth v2 and KITTI benchmark datasets, while outperforming all vision-language depth models based on a frozen CLIP prior. Experiments demonstrate that the suboptimal depth understanding of CLIP in terms of spatial and temporal consistency can be significantly corrected without either fine-tuning it or concatenating mirror with its pre-trained subword token embeddings. Furthermore, an ablation study on the convergence status of mirror shows that it is implicitly trained to capture objects, such as humans and windows, where semantic cues play an important role in detection.
- Abstract(参考訳): 本稿では,Webクローリングデータの事前学習中に視覚言語アライメントが最適に学習されるダウンストリームタスクにもCLIPが適用可能であることを実証する。
生成モデルやセマンティックセグメンテーションといった領域での成功と比較して,CLIPの先行的コントラストが一般化に苦しむ単眼深度推定の事例を考察する。
CLIPは、画像パッチと距離を記述する自然言語プロンプトの類似性を一貫してキャプチャできないため、トレーニング済みの自然言語トークンの埋め込みの使用を排除し、凍結テキストエンコーダの前のセマンティクスを、"mirror"と呼ばれる単一の学習可能な埋め込みマトリックスに蒸留する。
ミラーの主な設計目標は、最適な自然言語のプロンプトを近似する非人間的なプロンプトを導出することである。
このアプローチを用いて,凍結したCLIP上に2つの軽量モジュール,ミラーとコンパクトデコーダを共同でトレーニングし,深度予測を行う。
従来の深度モデルと比較して,パラメータや計算の面で,我々のフレームワークははるかに効率的である。
結果として得られたモデルは印象的なパフォーマンスを示し、NYU Depth v2とKITTIベンチマークデータセットのいくつかの最先端のビジョンモデルと一致し、凍結したCLIPに基づいて、すべてのビジョン言語深度モデルよりも優れています。
実験により、空間的および時間的整合性の観点からCLIPの最適深度理解は、微調整や、事前訓練されたサブワードトークンの埋め込みによるミラーの結合を伴わずに、著しく修正できることが示されている。
さらに、鏡の収束状態に関するアブレーション研究は、人間や窓などの物体を捉えるために暗黙的に訓練されていることを示している。
関連論文リスト
- CLIP-IN: Enhancing Fine-Grained Visual Understanding in CLIP via Instruction Editing Data and Long Captions [17.05291662808873]
CLIP-IN(CLIP-IN)は、2つのコアイノベーションを通じてCLIPの微粒な認識を促進する新しいフレームワークである。
まず、画像操作用に設計された命令編集データセットを、ハードネガティブな画像テキストペアのユニークな情報源として活用する。
第二に、CLIP-INは長いキャプションを組み込み、回転する位置エンコーディングを利用して、標準のCLIPでしばしば見逃されるリッチなセマンティックコンテキストをキャプチャする。
論文 参考訳(メタデータ) (2025-08-04T11:57:10Z) - Analyzing CLIP's Performance Limitations in Multi-Object Scenarios: A Controlled High-Resolution Study [3.1667055223489786]
コントラスト言語-画像事前学習(CLIP)モデルは,ゼロショット分類タスクにおいて顕著な性能を示した。
本研究では,制御実験による多目的コンテキストにおけるCLIPの性能限界の包括的解析を行う。
論文 参考訳(メタデータ) (2025-02-27T07:03:10Z) - CLIP with Quality Captions: A Strong Pretraining for Vision Tasks [16.208506912410147]
良質なキャプションを用いたCLIPプレトレーニングは,近年の教師付き・自己監督型・弱教師付きプレトレーニング方法を上回る可能性がある。
モバイルアーキテクチャはCLIP事前トレーニングのメリットも大きいことが分かっています。
論文 参考訳(メタデータ) (2024-05-14T19:06:24Z) - Learning to Adapt CLIP for Few-Shot Monocular Depth Estimation [31.34615135846137]
単眼深度推定に視覚言語モデルを適用することを学習する,数発のショットベース手法を提案する。
具体的には、異なるシーンに異なる深度ビンを割り当て、推論中にモデルによって選択できる。
トレーニング用シーンあたりのイメージが1つしかないため、NYU V2とKITTIデータセットによる大規模な実験結果から、我々の手法が従来の最先端の手法を最大10.6%上回っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T06:56:50Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。
本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。
さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文 参考訳(メタデータ) (2023-05-26T07:02:57Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、11のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。