論文の概要: PuriLight: A Lightweight Shuffle and Purification Framework for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2602.11066v1
- Date: Wed, 11 Feb 2026 17:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.252324
- Title: PuriLight: A Lightweight Shuffle and Purification Framework for Monocular Depth Estimation
- Title(参考訳): PuriLight: 単眼深度推定のための軽量シャッフル・精製フレームワーク
- Authors: Yujie Chen, Li Zhang, Xiaomeng Chu, Tian Zhang,
- Abstract要約: PuriLightは、自己教師付き単眼深度推定のためのフレームワークである。
計算効率と詳細保存という2つの課題に対処する。
PuriLightは、最小限のトレーニングパラメータで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 15.413017422345545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose PuriLight, a lightweight and efficient framework for self-supervised monocular depth estimation, to address the dual challenges of computational efficiency and detail preservation. While recent advances in self-supervised depth estimation have reduced reliance on ground truth supervision, existing approaches remain constrained by either bulky architectures compromising practicality or lightweight models sacrificing structural precision. These dual limitations underscore the critical need to develop lightweight yet structurally precise architectures. Our framework addresses these limitations through a three-stage architecture incorporating three novel modules: the Shuffle-Dilation Convolution (SDC) module for local feature extraction, the Rotation-Adaptive Kernel Attention (RAKA) module for hierarchical feature enhancement, and the Deep Frequency Signal Purification (DFSP) module for global feature purification. Through effective collaboration, these modules enable PuriLight to achieve both lightweight and accurate feature extraction and processing. Extensive experiments demonstrate that PuriLight achieves state-of-the-art performance with minimal training parameters while maintaining exceptional computational efficiency. Codes will be available at https://github.com/ishrouder/PuriLight.
- Abstract(参考訳): 本稿では,自己教師付き単分子深度推定のための軽量かつ効率的なフレームワークであるPuriLightを提案し,計算効率と詳細保存の両面的な課題に対処する。
自己監督深度推定の最近の進歩は、地上の真理監督への依存を減らしているが、既存のアプローチは、実用性を妥協するか、構造精度を犠牲にする軽量なモデルによって制約されている。
これらの2つの制限は、軽量で構造的に正確なアーキテクチャを開発するための重要な必要性を浮き彫りにした。
本稿では,局所的特徴抽出のためのShuffle-Dilation Convolution(SDC)モジュール,階層的特徴強調のためのRotation-Adaptive Kernel Attention(Raka)モジュール,グローバルな特徴浄化のためのDeep Frequency Signal Purification(DFSP)モジュールの3つの新しいモジュールを組み込んだ3段階アーキテクチャを用いて,これらの制限に対処する。
これらのモジュールは効果的なコラボレーションを通じて、軽量かつ正確な特徴抽出と処理の両方を実現することができる。
大規模な実験では、PuriLightは例外的な計算効率を維持しながら、最小限のトレーニングパラメータで最先端のパフォーマンスを達成する。
コードはhttps://github.com/ishrouder/PuriLight.comから入手できる。
関連論文リスト
- Real-Time Lane Detection via Efficient Feature Alignment and Covariance Optimization for Low-Power Embedded Systems [22.603468261037975]
組込みシステムにおけるリアルタイム車線検出は、RGB画像の微妙でスパースな視覚信号のため、重大な課題に直面している。
本稿では,効率的なリアルタイムアプリケーションに特化して設計された,革新的な共分散分散最適化(CDO)モジュールを提案する。
CDOモジュールは、車線特徴分布を地上構造ラベルと密接に一致させ、計算複雑性を増大させることなく検出精度を大幅に向上させる。
論文 参考訳(メタデータ) (2026-01-05T00:06:06Z) - LIDAR: Lightweight Adaptive Cue-Aware Fusion Vision Mamba for Multimodal Segmentation of Structural Cracks [27.57718303520023]
軽量適応Cue-Aware Vision Mambaネットワークを提案する。
マルチモーダルひび割れのシナリオ下で、異なるモーダルから形態的およびテクスチャ的手がかりを効率よく知覚し、統合する。
本手法はF1では0.8204、mIoUでは0.8465、パラメータは5.35Mである。
論文 参考訳(メタデータ) (2025-07-30T08:28:20Z) - Lightweight RGB-D Salient Object Detection from a Speed-Accuracy Tradeoff Perspective [54.91271106816616]
現在のRGB-D法は通常、大規模なバックボーンを利用して精度を向上させるが効率を犠牲にする。
本稿では,軽量RGB-D SODのためのSATNet(Speed-Accuracy Tradeoff Network)を提案する。
深度について,高品質の深度マップを生成するための深度任意のモデルを導入する。
モダリティ融合において,モダリティ間の整合性を検討するために,DAM(Decoupled Attention Module)を提案する。
特徴表現のために,双方向の反転フレームワークを用いたDIRM (Dual Information Representation Module) を開発した。
論文 参考訳(メタデータ) (2025-05-07T19:37:20Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - X2-DFD: A framework for eXplainable and eXtendable Deepfake Detection [55.77552681618732]
X2-DFDは、eXplainableおよびeXtendableフレームワークであり、ディープフェイク検出のためのマルチモーダルな多言語モデル(MLLM)に基づいている。
最初の段階であるモデル特徴評価は、MLLMの偽造関係の特徴の検出可能性を体系的に評価する。
2番目のステージであるExplainable dataset Constructionは、Strong Feature StrengtheningとWeak Feature Supplementingの2つの重要なモジュールで構成されている。
3番目のステージであるファインチューニングと推論では、構築されたデータセット上でMLLMを微調整し、最終的な検出と説明のためにデプロイする。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Lightweight Deep Learning Framework for Accurate Particle Flow Energy Reconstruction [8.598010350935596]
本稿では,ディープラーニング再構築の枠組みを体系的に評価する。
重み付き平均2乗と誤差構造類似度指数を組み合わせたハイブリッド損失関数を設計する。
我々は,モーダル時間的相関とエネルギー変位非線形性を捉えるモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-10-08T11:49:18Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。