Fugu-MT 論文翻訳(概要): PureCLIP-Depth: Prompt-Free and Decoder-Free Monocular Depth Estimation within CLIP Embedding Space

論文の概要: PureCLIP-Depth: Prompt-Free and Decoder-Free Monocular Depth Estimation within CLIP Embedding Space

arxiv url: http://arxiv.org/abs/2603.16238v1
Date: Tue, 17 Mar 2026 08:24:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.166716
Title: PureCLIP-Depth: Prompt-Free and Decoder-Free Monocular Depth Estimation within CLIP Embedding Space
Title（参考訳）: 純CLIP深さ:CLIP埋め込み空間内におけるプロンプトフリーおよびデコーダフリー単分子深さ推定
Authors: Ryutaro Miya, Kazuyoshi Fushinobu, Tatsuya Kawaguchi,
Abstract要約: 本稿では,コントラスト言語-画像事前学習(CLIP)埋め込み空間内で完全に動作する,プロンプトフリーでデコーダフリーな単眼深度推定(MDE)モデルを提案する。提案手法は,室内および屋外の両方のデータセット上で,CLIP埋め込みモデル間の最先端性能を実現する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose PureCLIP-Depth, a completely prompt-free, decoder-free Monocular Depth Estimation (MDE) model that operates entirely within the Contrastive Language-Image Pre-training (CLIP) embedding space. Unlike recent models that rely heavily on geometric features, we explore a novel approach to MDE driven by conceptual information, performing computations directly within the conceptual CLIP space. The core of our method lies in learning a direct mapping from the RGB domain to the depth domain strictly inside this embedding space. Our approach achieves state-of-the-art performance among CLIP embedding-based models on both indoor and outdoor datasets. The code used in this research is available at: https://github.com/ryutaroLF/PureCLIP-Depth
Abstract（参考訳）: 本稿では,完全にプロンプトフリーでデコーダフリーなモノクル深度推定(MDE)モデルであるPureCLIP-Depthを提案する。幾何学的特徴に大きく依存する最近のモデルとは異なり、概念情報によって駆動されるMDEへの新しいアプローチを探求し、概念的CLIP空間内で直接計算を行う。我々の手法の中核は、RGB領域から奥行き領域への直接写像をこの埋め込み空間内で厳密に学習することにある。提案手法は,室内および屋外のデータセット上でのCLIP埋め込みモデル間の最先端性能を実現する。この研究で使用されたコードは、https://github.com/ryutaroLF/PureCLIP-Depth.comで公開されている。

関連論文リスト

SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation [0.0]
凍結したCLIPビジョンエンコーダから直接、潜伏した幾何学的知識を解き明かし、解釈するアーキテクチャであるSPACE-CLIPを提案する。意味経路は、グローバルな文脈で動的に条件付けられた高レベルな特徴を解釈する。構造経路は、初期層から微細な空間的詳細を抽出する。
論文参考訳（メタデータ） (2026-01-25T02:32:01Z)
Hybrid-grained Feature Aggregation with Coarse-to-fine Language Guidance for Self-supervised Monocular Depth Estimation [26.067792743687775]
現在の自己教師型単眼深度推定手法は, 意味空間知識の抽出が不十分なため, 性能限界に遭遇する。基礎モデル(例えばCLIPやDINO)を体系的に統合し、視覚的先行情報を抽出し、MDEに十分な文脈情報を取得する新しいフレームワークであるHybrid-depthを提案する。
論文参考訳（メタデータ） (2025-10-10T12:20:19Z)
RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation [51.37553739930992]
RPCANet++は、RPCAの解釈可能性と効率的なディープアーキテクチャを融合したスパースオブジェクトセグメンテーションフレームワークである。我々のアプローチは、緩やかなRPCAモデルを背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像復元モジュール(IRM)からなる構造化ネットワークに展開する。さまざまなデータセットの実験では、RPCANet++がさまざまなイメージングシナリオの下で最先端のパフォーマンスを達成することが示されている。
論文参考訳（メタデータ） (2025-08-06T08:19:37Z)
Is CLIP ideal? No. Can we fix it? Yes! [30.71718499767702]
Contrastive Language-Image Pre-Trainingは、よく組織化されたセマンティクスでマルチモーダルな潜在空間を学習する一般的な方法である。広い範囲のアプリケーションにもかかわらず、CLIPの潜伏空間は複雑な視覚とテキストの相互作用を扱うのに失敗することが知られている。本稿では,CLIP様モデルの原理的,解釈可能な評価法として,コサイン類似度マップ(DCSM)を提案する。
論文参考訳（メタデータ） (2025-03-10T23:42:04Z)
Towards Optimal Aggregation of Varying Range Dependencies in Haze Removal [17.29370328189668]
既存の手法は、局所的な詳細を保存するための短距離依存関係や、グローバルなコンテキストを捉えるための長距離依存関係を専門にすることで、顕著な成功を収めている。 DehazeMaticを提案する。これは、デュアルストリーム設計により、短距離および長距離の両方の依存関係を同時に、かつ明示的にキャプチャする。
論文参考訳（メタデータ） (2024-08-22T11:51:50Z)
Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文参考訳（メタデータ） (2024-06-17T03:49:47Z)
IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。 CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文参考訳（メタデータ） (2024-03-30T07:17:37Z)
UniDepth: Universal Monocular Metric Depth Estimation [81.80512457953903]
ドメインをまたいだ単一の画像からメートル法3Dシーンを再構成できる新しいモデルUniDepthを提案する。我々のモデルは擬似球面出力表現を利用しており、カメラと奥行きの表現を歪めている。ゼロショット方式における10のデータセットの詳細な評価は、一貫してUniDepthの優れた性能を示している。
論文参考訳（メタデータ） (2024-03-27T18:06:31Z)
Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文参考訳（メタデータ） (2024-03-01T15:14:47Z)
CLIP Can Understand Depth [6.877245323116022]
CLIPは、Webcrawledデータによる事前学習中に、その視覚言語アライメントを最適に学習する下流タスクに適応できることを示す。凍結したテキストエンコーダの前のセマンティクスを「ミラー」と呼ばれる単一の学習可能な埋め込み行列に蒸留する。その結果得られたモデルは印象的なパフォーマンスを示し、NYU Depth v2とKITTIベンチマークデータセットの最先端のビジョンモデルにマッチする。
論文参考訳（メタデータ） (2024-02-05T18:09:33Z)
PointCLIP: Point Cloud Understanding by CLIP [77.02399444893963]
本稿では,CLIP符号化点クラウドと3Dカテゴリテキストのアライメントを行うPointCLIPを提案する。 PointCLIPは、リソースコストとデータレシエーションの低いCLIPによる効果的な3Dポイントクラウド理解のための、有望な代替手段である。
論文参考訳（メタデータ） (2021-12-04T19:42:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。