論文の概要: PPEA-Depth: Progressive Parameter-Efficient Adaptation for
Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2312.13066v2
- Date: Wed, 17 Jan 2024 00:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 19:51:42.903983
- Title: PPEA-Depth: Progressive Parameter-Efficient Adaptation for
Self-Supervised Monocular Depth Estimation
- Title(参考訳): PPEA-Depth:自己監督単眼深度推定のためのプログレッシブパラメータ効率適応
- Authors: Yue-Jiang Dong, Yuan-Chen Guo, Ying-Tian Liu, Fang-Lue Zhang, Song-Hai
Zhang
- Abstract要約: 本稿では,自己教師付き深度推定のための事前学習画像モデルを転送するプログレッシブ適応手法であるPPEA-Depthを提案する。
トレーニングは2つのシーケンシャルステージで構成されている: データセット上でトレーニングされた初期フェーズは、主に静的シーンで構成され、より複雑なデータセットへの拡張によって後継される。
実験によると、PPEA-DepthはKITTI、CityScapes、DDADデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 24.68378829544394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation is of significant importance with
applications spanning across autonomous driving and robotics. However, the
reliance on self-supervision introduces a strong static-scene assumption,
thereby posing challenges in achieving optimal performance in dynamic scenes,
which are prevalent in most real-world situations. To address these issues, we
propose PPEA-Depth, a Progressive Parameter-Efficient Adaptation approach to
transfer a pre-trained image model for self-supervised depth estimation. The
training comprises two sequential stages: an initial phase trained on a dataset
primarily composed of static scenes, succeeded by an expansion to more
intricate datasets involving dynamic scenes. To facilitate this process, we
design compact encoder and decoder adapters to enable parameter-efficient
tuning, allowing the network to adapt effectively. They not only uphold
generalized patterns from pre-trained image models but also retain knowledge
gained from the preceding phase into the subsequent one. Extensive experiments
demonstrate that PPEA-Depth achieves state-of-the-art performance on KITTI,
CityScapes and DDAD datasets.
- Abstract(参考訳): 自己教師付き単眼深度推定は、自動運転とロボティクスにまたがるアプリケーションにおいて非常に重要である。
しかし、自己スーパービジョンへの依存は、実世界のほとんどの状況で一般的である動的シーンにおける最適なパフォーマンスを達成する上での課題となる、強い静的-シーンの仮定をもたらす。
これらの問題に対処するために,自己監督深度推定のための事前学習画像モデルを転送するためのプログレッシブパラメータ効率適応手法PPEA-Depthを提案する。
トレーニングは主に静的シーンで構成されたデータセットでトレーニングされた初期フェーズと、動的シーンを含むより複雑なデータセットへの拡張である。
このプロセスを容易にするために、パラメータ効率の良いチューニングを可能にするために、コンパクトエンコーダとデコーダアダプタを設計し、ネットワークを効果的に適応させる。
事前訓練された画像モデルから一般化されたパターンを保持するだけでなく、前フェーズから得られた知識を後フェーズに保持する。
大規模な実験では、PPEA-DepthがKITTI、CityScapes、DDADデータセット上で最先端のパフォーマンスを達成した。
関連論文リスト
- Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Dyna-DepthFormer: Multi-frame Transformer for Self-Supervised Depth
Estimation in Dynamic Scenes [19.810725397641406]
シーン深度と3次元運動場を協調的に予測する新しいDyna-Depthformerフレームワークを提案する。
まず,多視点の相関を一連の自己・横断的層を通じて活用し,深度特徴表現の強化を図る。
第2に,動的物体の運動場をセマンティック・プレセプションを使わずに推定するワーピングに基づく運動ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-14T09:43:23Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Forecasting of depth and ego-motion with transformers and
self-supervision [0.0]
本稿では,深度とエゴ運動のエンドツーエンド自己監督予測の問題に対処する。
原画像の列が与えられた場合、教師付き自己測光損失を用いて、幾何と自我運動の両方を予測することを目的とする。
アーキテクチャは、畳み込みモジュールとトランスフォーマーモジュールの両方を使って設計されている。
論文 参考訳(メタデータ) (2022-06-15T10:14:11Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。