論文の概要: PPEA-Depth: Progressive Parameter-Efficient Adaptation for
Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2312.13066v2
- Date: Wed, 17 Jan 2024 00:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 19:51:42.903983
- Title: PPEA-Depth: Progressive Parameter-Efficient Adaptation for
Self-Supervised Monocular Depth Estimation
- Title(参考訳): PPEA-Depth:自己監督単眼深度推定のためのプログレッシブパラメータ効率適応
- Authors: Yue-Jiang Dong, Yuan-Chen Guo, Ying-Tian Liu, Fang-Lue Zhang, Song-Hai
Zhang
- Abstract要約: 本稿では,自己教師付き深度推定のための事前学習画像モデルを転送するプログレッシブ適応手法であるPPEA-Depthを提案する。
トレーニングは2つのシーケンシャルステージで構成されている: データセット上でトレーニングされた初期フェーズは、主に静的シーンで構成され、より複雑なデータセットへの拡張によって後継される。
実験によると、PPEA-DepthはKITTI、CityScapes、DDADデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 24.68378829544394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation is of significant importance with
applications spanning across autonomous driving and robotics. However, the
reliance on self-supervision introduces a strong static-scene assumption,
thereby posing challenges in achieving optimal performance in dynamic scenes,
which are prevalent in most real-world situations. To address these issues, we
propose PPEA-Depth, a Progressive Parameter-Efficient Adaptation approach to
transfer a pre-trained image model for self-supervised depth estimation. The
training comprises two sequential stages: an initial phase trained on a dataset
primarily composed of static scenes, succeeded by an expansion to more
intricate datasets involving dynamic scenes. To facilitate this process, we
design compact encoder and decoder adapters to enable parameter-efficient
tuning, allowing the network to adapt effectively. They not only uphold
generalized patterns from pre-trained image models but also retain knowledge
gained from the preceding phase into the subsequent one. Extensive experiments
demonstrate that PPEA-Depth achieves state-of-the-art performance on KITTI,
CityScapes and DDAD datasets.
- Abstract(参考訳): 自己教師付き単眼深度推定は、自動運転とロボティクスにまたがるアプリケーションにおいて非常に重要である。
しかし、自己スーパービジョンへの依存は、実世界のほとんどの状況で一般的である動的シーンにおける最適なパフォーマンスを達成する上での課題となる、強い静的-シーンの仮定をもたらす。
これらの問題に対処するために,自己監督深度推定のための事前学習画像モデルを転送するためのプログレッシブパラメータ効率適応手法PPEA-Depthを提案する。
トレーニングは主に静的シーンで構成されたデータセットでトレーニングされた初期フェーズと、動的シーンを含むより複雑なデータセットへの拡張である。
このプロセスを容易にするために、パラメータ効率の良いチューニングを可能にするために、コンパクトエンコーダとデコーダアダプタを設計し、ネットワークを効果的に適応させる。
事前訓練された画像モデルから一般化されたパターンを保持するだけでなく、前フェーズから得られた知識を後フェーズに保持する。
大規模な実験では、PPEA-DepthがKITTI、CityScapes、DDADデータセット上で最先端のパフォーマンスを達成した。
関連論文リスト
- MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion [118.74385965694694]
我々は動的シーンから時間ステップごとの幾何を直接推定する新しい幾何学的アプローチであるMotion DUSt3R(MonST3R)を提案する。
各タイムステップのポイントマップを単純に推定することで、静的シーンにのみ使用されるDUST3Rの表現を動的シーンに効果的に適応させることができる。
我々は、問題を微調整タスクとしてポーズし、いくつかの適切なデータセットを特定し、この制限されたデータ上でモデルを戦略的に訓練することで、驚くほどモデルを動的に扱えることを示す。
論文 参考訳(メタデータ) (2024-10-04T18:00:07Z) - DepthART: Monocular Depth Estimation as Autoregressive Refinement Task [2.3884184860468136]
本稿では,視覚的自己回帰変換器に基づく最初の自己回帰深度推定モデルを提案する。
我々の主な貢献は、Depth Autoregressive Refinement Taskとして定式化された新しいトレーニング手法であるDepthARTである。
実験により,提案手法は,奥行き推定タスクにおいて,次のスケールの予測によって視覚自己回帰モデルを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2024-09-23T13:36:34Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - DualAD: Disentangling the Dynamic and Static World for End-to-End Driving [11.379456277711379]
自動運転のための最先端のアプローチは、全体運転タスクの複数のサブタスクを単一のパイプラインに統合する。
動的エージェントと静的シーン要素を分離する専用表現を提案する。
DualADというタイトルの手法は、独立に訓練されたシングルタスクネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-06-10T13:46:07Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Forecasting of depth and ego-motion with transformers and
self-supervision [0.0]
本稿では,深度とエゴ運動のエンドツーエンド自己監督予測の問題に対処する。
原画像の列が与えられた場合、教師付き自己測光損失を用いて、幾何と自我運動の両方を予測することを目的とする。
アーキテクチャは、畳み込みモジュールとトランスフォーマーモジュールの両方を使って設計されている。
論文 参考訳(メタデータ) (2022-06-15T10:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。