論文の概要: SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2601.17657v1
- Date: Sun, 25 Jan 2026 02:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.114283
- Title: SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation
- Title(参考訳): SPACE-CLIP:単眼深度推定のための適応CLIP埋め込みによる空間知覚
- Authors: Taewan Cho, Taeryang Kim, Andrew Jaeyong Choi,
- Abstract要約: 凍結したCLIPビジョンエンコーダから直接、潜伏した幾何学的知識を解き明かし、解釈するアーキテクチャであるSPACE-CLIPを提案する。
意味経路は、グローバルな文脈で動的に条件付けられた高レベルな特徴を解釈する。
構造経路は、初期層から微細な空間的詳細を抽出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training (CLIP) has accomplished extraordinary success for semantic understanding but inherently struggles to perceive geometric structure. Existing methods attempt to bridge this gap by querying CLIP with textual prompts, a process that is often indirect and inefficient. This paper introduces a fundamentally different approach using a dual-pathway decoder. We present SPACE-CLIP, an architecture that unlocks and interprets latent geometric knowledge directly from a frozen CLIP vision encoder, completely bypassing the text encoder and its associated textual prompts. A semantic pathway interprets high-level features, dynamically conditioned on global context using feature-wise linear modulation (FiLM). In addition, a structural pathway extracts fine-grained spatial details from early layers. These complementary streams are hierarchically fused, enabling a robust synthesis of semantic context and precise geometry. Extensive experiments on the KITTI benchmark show that SPACE-CLIP dramatically outperforms previous CLIP-based methods. Our ablation studies validate that the synergistic fusion of our dual pathways is critical to this success. SPACE-CLIP offers a new, efficient, and architecturally elegant blueprint for repurposing large-scale vision models. The proposed method is not just a standalone depth estimator, but a readily integrable spatial perception module for the next generation of embodied AI systems, such as vision-language-action (VLA) models. Our model is available at https://github.com/taewan2002/space-clip
- Abstract(参考訳): 対照的な言語-画像事前学習(CLIP)は、意味的理解において非常に成功したが、本質的に幾何学的構造を理解するのに苦労している。
既存のメソッドは、しばしば間接的で非効率なプロセスであるテキストプロンプトでCLIPをクエリすることで、このギャップを埋めようとしている。
本稿では,デュアルパスウェイデコーダを用いた根本的に異なるアプローチを提案する。
本研究では,凍結したCLIPビジョンエンコーダから直接潜伏した幾何学的知識を解き明かし,解釈するアーキテクチャであるSPACE-CLIPについて述べる。
意味経路は、機能ワイド線形変調(FiLM)を用いて、グローバルコンテキスト上で動的に条件付けられた高次特徴を解釈する。
さらに、構造経路は初期層から微細な空間的詳細を抽出する。
これらの相補的ストリームは階層的に融合し、意味的文脈と正確な幾何学の堅牢な合成を可能にする。
KITTIベンチマークの大規模な実験は、SPACE-CLIPが従来のCLIPベースの手法よりも劇的に優れていることを示している。
我々のアブレーション研究は、我々の二重経路の相乗的融合がこの成功に不可欠であることを示す。
SPACE-CLIPは新しい、効率的で、アーキテクチャ上エレガントな青写真を提供する。
提案手法は単なるスタンドアロンの深度推定器ではなく,視覚言語アクション(VLA)モデルなどの次世代AIシステムのための,容易に統合可能な空間認識モジュールである。
私たちのモデルはhttps://github.com/taewan2002/space-clipで利用可能です。
関連論文リスト
- SpatialGeo:Boosting Spatial Reasoning in Multimodal LLMs via Geometry-Semantics Fusion [23.86761713752287]
MLLM(Multimodal large language model)は、画像および言語タスクにおいて大きな進歩を遂げている。
ほとんどのMLLMは、空間的配置を3次元空間で解釈し推論する限られた空間的推論能力に悩まされている。
幾何学と意味論の階層的融合に基づく新しい視覚エンコーダを提案し,空間認識型視覚埋め込みを生成する。
論文 参考訳(メタデータ) (2025-11-21T15:24:33Z) - CCL-LGS: Contrastive Codebook Learning for 3D Language Gaussian Splatting [53.15827818829865]
2Dプリンシパルに依存しているメソッドは、横断的なセマンティクスの不整合という重要な課題に陥る。
CCL-LGSは、多視点セマンティックキューを統合することで、ビューに一貫性のあるセマンティック監視を実現する新しいフレームワークである。
我々の枠組みは、カテゴリー識別性を維持しながら意味的対立を明示的に解決する。
論文 参考訳(メタデータ) (2025-05-26T19:09:33Z) - Is CLIP ideal? No. Can we fix it? Yes! [30.71718499767702]
Contrastive Language-Image Pre-Trainingは、よく組織化されたセマンティクスでマルチモーダルな潜在空間を学習する一般的な方法である。
広い範囲のアプリケーションにもかかわらず、CLIPの潜伏空間は複雑な視覚とテキストの相互作用を扱うのに失敗することが知られている。
本稿では,CLIP様モデルの原理的,解釈可能な評価法として,コサイン類似度マップ(DCSM)を提案する。
論文 参考訳(メタデータ) (2025-03-10T23:42:04Z) - Frozen CLIP: A Strong Backbone for Weakly Supervised Semantic Segmentation [90.35249276717038]
弱教師付きセマンティックセグメンテーションのためのCLIPベースのシングルステージパイプラインであるWeCLIPを提案する。
具体的には、凍結したCLIPモデルを意味的特徴抽出のバックボーンとして適用する。
新しいデコーダは、最終予測のために抽出された意味的特徴を解釈するように設計されている。
論文 参考訳(メタデータ) (2024-06-17T03:49:47Z) - CLIP Can Understand Depth [6.877245323116022]
CLIPは、Webcrawledデータによる事前学習中に、その視覚言語アライメントを最適に学習する下流タスクに適応できることを示す。
凍結したテキストエンコーダの前のセマンティクスを「ミラー」と呼ばれる単一の学習可能な埋め込み行列に蒸留する。
その結果得られたモデルは印象的なパフォーマンスを示し、NYU Depth v2とKITTIベンチマークデータセットの最先端のビジョンモデルにマッチする。
論文 参考訳(メタデータ) (2024-02-05T18:09:33Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - CAILA: Concept-Aware Intra-Layer Adapters for Compositional Zero-Shot
Learning [14.496173899477283]
本研究では,既存の概念と新しい属性オブジェクトの組み合わせを認識することを目的とした,合成ゼロショット学習(CZSL)の課題について検討する。
本稿では,CLIPエンコーダ層に,大規模言語モデル間で有効であることが証明されたパラメータ効率向上手法であるアダプタを挿入することを提案する。
さらに,概念意識を付加し,概念固有の「対象」,「属性」,「構成」の特徴を抽出できるようにした。
論文 参考訳(メタデータ) (2023-05-26T07:02:57Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。