論文の概要: Lightweight Prompt-Guided CLIP Adaptation for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2604.01118v1
- Date: Wed, 01 Apr 2026 16:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.095777
- Title: Lightweight Prompt-Guided CLIP Adaptation for Monocular Depth Estimation
- Title(参考訳): 軽量Prompt-Guided CLIP Adaptation for Monocular Depth Estimation
- Authors: Reyhaneh Ahani Manghotay, Jie Liang,
- Abstract要約: MoA-DepthCLIPは、最小限の監督で単眼深度推定に事前訓練されたCLIP表現を適用する。
本手法では,Mixture-of-Adapters (MoA) モジュールを事前学習したビジョントランス (ViT-B/32) のバックボーンに統合する。
NYU Depth V2ベンチマークでは、MoA-DepthCLIPは、DepthCLIPベースラインを大幅に上回る競争結果を得る。
- 参考スコア(独自算出の注目度): 3.0739122323721766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging the rich semantic features of vision-language models (VLMs) like CLIP for monocular depth estimation tasks is a promising direction, yet often requires extensive fine-tuning or lacks geometric precision. We present a parameter-efficient framework, named MoA-DepthCLIP, that adapts pretrained CLIP representations for monocular depth estimation with minimal supervision. Our method integrates a lightweight Mixture-of-Adapters (MoA) module into the pretrained Vision Transformer (ViT-B/32) backbone combined with selective fine-tuning of the final layers. This design enables spatially-aware adaptation, guided by a global semantic context vector and a hybrid prediction architecture that synergizes depth bin classification with direct regression. To enhance structural accuracy, we employ a composite loss function that enforces geometric constraints. On the NYU Depth V2 benchmark, MoA-DepthCLIP achieves competitive results, significantly outperforming the DepthCLIP baseline by improving the $δ_1$ accuracy from 0.390 to 0.745 and reducing the RMSE from 1.176 to 0.520. These results are achieved while requiring substantially few trainable parameters, demonstrating that lightweight, prompt-guided MoA is a highly effective strategy for transferring VLM knowledge to fine-grained monocular depth estimation tasks.
- Abstract(参考訳): 単眼深度推定タスクにCLIPのような視覚言語モデル(VLM)のリッチな意味的特徴を活用することは有望な方向であるが、大規模な微調整や幾何学的精度の欠如がしばしば必要である。
パラメータ効率のよいフレームワークであるMoA-DepthCLIPを提案する。このフレームワークは、トレーニング済みのCLIP表現を最小限の監督で単眼深度推定に適応させる。
本手法では,Mixture-of-Adapters (MoA) モジュールをトレーニング済みビジョントランス (ViT-B/32) のバックボーンに統合し,最終層を選択的に微調整する。
この設計は、大域的意味文脈ベクトルと、直接回帰を伴う深度ビン分類を相乗化するハイブリッド予測アーキテクチャによって導かれる空間的適応を可能にする。
構造的精度を高めるために、幾何的制約を強制する複合損失関数を用いる。
NYUのDepth V2ベンチマークでは、MoA-DepthCLIPは、δ_1$の精度を0.390から0.745に改善し、RMSEを1.176から0.520に下げることで、DepthCLIPベースラインを大幅に上回った。
これらの結果は、訓練可能なパラメータをかなり少なく必要としながら達成され、軽量で急速誘導されたMoAが、VLM知識を微細な単分子深度推定タスクに転送する非常に効果的な戦略であることを示す。
関連論文リスト
- $D^3$-RSMDE: 40$\times$ Faster and High-Fidelity Remote Sensing Monocular Depth Estimation [72.9912717963138]
リモートセンシング画像からのリアルタイムで高忠実な単眼深度推定は、多くのアプリケーションにとって不可欠である。
視覚変換器(ViT)のバックボーンを高密度な予測に使用するのは速いが、知覚品質は低いことが多い。
リモートセンシング単眼深度推定のための深度詳細拡散法(D3$-RSMDE)を提案する。
D3$-RSMDEは、Learninged Perceptual Image Patch similarity (LPIPS)の知覚距離を11.85%削減する。
論文 参考訳(メタデータ) (2026-03-17T10:50:36Z) - How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。
フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。
我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文 参考訳(メタデータ) (2026-01-08T15:55:13Z) - IMSE: Efficient U-Net-based Speech Enhancement using Inception Depthwise Convolution and Amplitude-Aware Linear Attention [2.3959703715401903]
本稿では,系統的に最適化された超軽量ネットワークIMSEを提案する。
1) MET モジュールを Amplitude-Aware Linear Attention (MALA) に、2) Deformable Embedding (DE) モジュールを Inception Depthwise Convolution (IDConv) に置き換える。
実験では、IMSEはパラメータ数を16.8%(0.513Mから0.427M)削減し、PESQ測定値(3.373)の最先端技術に匹敵する競争性能を達成する。
論文 参考訳(メタデータ) (2025-11-18T14:11:54Z) - CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs [6.456189487006878]
視覚変換器(ViT)のためのデータフリー後学習量子化法であるCLAMP-ViTを提案する。
我々は、近年の手法の限界、特に意味のあるパッチ間の関係を活用できないことを特定する。
CLAMP-ViTは2段階のアプローチを採用し、データ生成とモデル量子化の間に循環的に適応する。
論文 参考訳(メタデータ) (2024-07-07T05:39:25Z) - EndoDepthL: Lightweight Endoscopic Monocular Depth Estimation with
CNN-Transformer [0.0]
我々は,CNNとTransformerを統合してマルチスケール深度マップを推定する,EndoDepthLという新しい軽量ソリューションを提案する。
提案手法は,ネットワークアーキテクチャの最適化,マルチスケール拡張畳み込み,マルチチャネルアテンション機構の導入を含む。
内視鏡画像における単眼深度推定の性能をよりよく評価するために,新しい複雑性評価指標を提案する。
論文 参考訳(メタデータ) (2023-08-04T21:38:29Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Unifying Synergies between Self-supervised Learning and Dynamic
Computation [53.66628188936682]
SSLとDCのパラダイム間の相互作用に関する新しい視点を提示する。
SSL設定において、スクラッチから高密度かつゲートされたサブネットワークを同時に学習することは可能であることを示す。
密集エンコーダとゲートエンコーダの事前学習における共進化は、良好な精度と効率のトレードオフをもたらす。
論文 参考訳(メタデータ) (2023-01-22T17:12:58Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular
Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。
局所重み付き線形回帰法を提案する。
提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文 参考訳(メタデータ) (2022-02-03T08:52:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。