論文の概要: ELiTe: Efficient Image-to-LiDAR Knowledge Transfer for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2405.04121v1
- Date: Tue, 7 May 2024 08:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 14:49:39.362440
- Title: ELiTe: Efficient Image-to-LiDAR Knowledge Transfer for Semantic Segmentation
- Title(参考訳): ELiTe: セマンティックセグメンテーションのための効率的な画像とLiDARの知識伝達
- Authors: Zhibo Zhang, Ximing Yang, Weizhong Zhang, Cheng Jin,
- Abstract要約: クロスモーダルな知識伝達は、LiDARセマンティックセグメンテーションにおけるポイントクラウド表現学習を強化する。
その可能性にもかかわらず、テキスタイルの教師の挑戦は、反復的で異種でない車のカメラ画像と、不正確な地上の真実のラベルによって生じる。
本稿では,この問題を解決するために,効率的な画像からLiDARへの知識伝達(ELiTe)パラダイムを提案する。
- 参考スコア(独自算出の注目度): 15.404188754049317
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal knowledge transfer enhances point cloud representation learning in LiDAR semantic segmentation. Despite its potential, the \textit{weak teacher challenge} arises due to repetitive and non-diverse car camera images and sparse, inaccurate ground truth labels. To address this, we propose the Efficient Image-to-LiDAR Knowledge Transfer (ELiTe) paradigm. ELiTe introduces Patch-to-Point Multi-Stage Knowledge Distillation, transferring comprehensive knowledge from the Vision Foundation Model (VFM), extensively trained on diverse open-world images. This enables effective knowledge transfer to a lightweight student model across modalities. ELiTe employs Parameter-Efficient Fine-Tuning to strengthen the VFM teacher and expedite large-scale model training with minimal costs. Additionally, we introduce the Segment Anything Model based Pseudo-Label Generation approach to enhance low-quality image labels, facilitating robust semantic representations. Efficient knowledge transfer in ELiTe yields state-of-the-art results on the SemanticKITTI benchmark, outperforming real-time inference models. Our approach achieves this with significantly fewer parameters, confirming its effectiveness and efficiency.
- Abstract(参考訳): クロスモーダルな知識伝達は、LiDARセマンティックセグメンテーションにおけるポイントクラウド表現学習を強化する。
その可能性にもかかわらず、‘textit{weak teacher challenge’ は、反復的で多角的でない車のカメライメージと、不正確な地上の真実ラベルによって生じる。
そこで本稿では,ELiTe(Efficient Image-to-LiDAR Knowledge Transfer)パラダイムを提案する。
ELiTe は Patch-to-Point Multi-Stage Knowledge Distillation を導入し、Vision Foundation Model (VFM) から包括的な知識を移譲し、多様なオープンワールドイメージで広く訓練されている。
これにより、モダリティを越えた軽量な学生モデルへの効果的な知識伝達が可能になる。
ELiTeはパラメータ効率の良いファインチューニングを使用して、VFM教師を強化し、最小コストで大規模モデルの訓練を迅速化する。
さらに,Segment Anything Modelに基づくPseudo-Label Generationアプローチを導入し,低品質な画像ラベルを向上し,ロバストなセマンティック表現を容易にする。
ELiTeにおける効率的な知識伝達は、SemanticKITTIベンチマークにおける最先端の結果をもたらし、リアルタイム推論モデルより優れている。
提案手法は, パラメータを著しく少なくして実現し, 有効性と効率性を確認した。
関連論文リスト
- Large-Scale Data-Free Knowledge Distillation for ImageNet via Multi-Resolution Data Generation [53.95204595640208]
Data-Free Knowledge Distillation (DFKD)は、教師モデルから生徒モデルへの知識伝達を可能にする高度な技術である。
従来のアプローチでは、実際の画像の情報を活用することなく、高解像度で合成画像を生成してきた。
MUSEは、クラスアクティベーションマップ(CAM)を使用して、低い解像度で画像を生成し、生成された画像が重要なクラス固有の特徴を保持することを保証する。
論文 参考訳(メタデータ) (2024-11-26T02:23:31Z) - Semi-LLIE: Semi-supervised Contrastive Learning with Mamba-based Low-light Image Enhancement [59.17372460692809]
本研究は、平均教師による半教師付き低照度強化(Semi-LLIE)フレームワークを提案する。
照度分布を忠実に伝達するために、意味認識によるコントラスト損失を導入し、自然色による画像の強調に寄与する。
また,大規模な視覚言語認識モデル(RAM)に基づく新たな知覚損失を提案し,よりリッチなテキストによる画像生成を支援する。
論文 参考訳(メタデータ) (2024-09-25T04:05:32Z) - ComKD-CLIP: Comprehensive Knowledge Distillation for Contrastive Language-Image Pre-traning Model [49.587821411012705]
コントラスト言語画像前処理モデルのための包括的知識蒸留法ComKD-CLIPを提案する。
大規模な教師CLIPモデルからより小さな学生モデルに知識を抽出し、パラメータを著しく減らして同等のパフォーマンスを確保する。
EduAttentionは教師モデルで抽出したテキスト特徴と学生モデルで抽出した画像特徴との相互関係を探索する。
論文 参考訳(メタデータ) (2024-08-08T01:12:21Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - GoodSAM: Bridging Domain and Capacity Gaps via Segment Anything Model for Distortion-aware Panoramic Semantic Segmentation [22.344399402787644]
本稿では,新しい課題に取り組み,新たなセグメンテーションモデル(SAM)から知識を伝達する方法について述べる。
そこで我々は,サンブルロジットを生成するためにSAMと統合された意味情報を提供する教師アシスタント(TA)を導入したGoodSAMというフレームワークを提案する。
2つのベンチマーク実験により、我々のGoodSAMは最先端(SOTA)ドメイン適応法よりも3.75%のmIoU改善を実現していることが示された。
論文 参考訳(メタデータ) (2024-03-25T02:30:32Z) - X-Transfer: A Transfer Learning-Based Framework for GAN-Generated Fake
Image Detection [33.31312811230408]
顔置換などの偽画像を生成するためにGANを誤用することは、重大なセキュリティ上の懸念を引き起こす。
本稿では,新しい画像検出アルゴリズムであるX-Transferを提案する。
インターリーブされた並列勾配伝送を利用する2つのニューラルネットワークを利用することで、トランスファーラーニングを強化する。
論文 参考訳(メタデータ) (2023-10-07T01:23:49Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception
Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。
我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文 参考訳(メタデータ) (2023-06-01T14:02:45Z) - TAKT: Target-Aware Knowledge Transfer for Whole Slide Image Classification [46.803231708918624]
本稿では,教師-学生パラダイムを取り入れた目標認識型知識伝達フレームワークを提案する。
我々のフレームワークは、教師モデルがソースとターゲットドメインから共通知識を学習することを可能にする。
本手法は,各種データセット上での知識伝達手法の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-10T08:29:35Z) - Rich Feature Distillation with Feature Affinity Module for Efficient
Image Dehazing [1.1470070927586016]
この作業は、単一イメージのヘイズ除去のためのシンプルで軽量で効率的なフレームワークを導入します。
我々は、ヘテロジニアス知識蒸留の概念を用いて、軽量な事前学習された超解像モデルから豊富な「暗黒知識」情報を利用する。
本実験は, RESIDE-Standardデータセットを用いて, 合成および実世界のドメインに対する我々のフレームワークの堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-13T18:32:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。