論文の概要: PCT: Perspective Cue Training Framework for Multi-Camera BEV Segmentation
- arxiv url: http://arxiv.org/abs/2403.12530v2
- Date: Mon, 15 Jul 2024 13:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 01:25:37.974359
- Title: PCT: Perspective Cue Training Framework for Multi-Camera BEV Segmentation
- Title(参考訳): PCT:マルチカメラBEVセグメンテーションのためのパースペクティブキュートレーニングフレームワーク
- Authors: Haruya Ishikawa, Takumi Iida, Yoshinori Konishi, Yoshimitsu Aoki,
- Abstract要約: Cue Perspective Training (PCT) は、ラベルのない視点画像から生成された擬似ラベルを利用する新しいトレーニングフレームワークである。
PCTはラベルのないデータが利用できる様々な設定に適用できる。
- 参考スコア(独自算出の注目度): 6.429761894240062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating annotations for bird's-eye-view (BEV) segmentation presents significant challenges due to the scenes' complexity and the high manual annotation cost. In this work, we address these challenges by leveraging the abundance of unlabeled data available. We propose the Perspective Cue Training (PCT) framework, a novel training framework that utilizes pseudo-labels generated from unlabeled perspective images using publicly available semantic segmentation models trained on large street-view datasets. PCT applies a perspective view task head to the image encoder shared with the BEV segmentation head, effectively utilizing the unlabeled data to be trained with the generated pseudo-labels. Since image encoders are present in nearly all camera-based BEV segmentation architectures, PCT is flexible and applicable to various existing BEV architectures. PCT can be applied to various settings where unlabeled data is available. In this paper, we applied PCT for semi-supervised learning (SSL) and unsupervised domain adaptation (UDA). Additionally, we introduce strong input perturbation through Camera Dropout (CamDrop) and feature perturbation via BEV Feature Dropout (BFD), which are crucial for enhancing SSL capabilities using our teacher-student framework. Our comprehensive approach is simple and flexible but yields significant improvements over various baselines for SSL and UDA, achieving competitive performances even against the current state-of-the-art.
- Abstract(参考訳): 鳥眼ビュー(BEV)セグメンテーションのためのアノテーションの生成は、シーンの複雑さと手作業によるアノテーションのコストが高いため、大きな課題となる。
本研究では、利用可能なラベルなしデータの豊富さを活用することで、これらの課題に対処する。
本研究では,大規模なストリートビューデータセットでトレーニングされた公開セマンティックセグメンテーションモデルを用いて,ラベルのない視点画像から生成された擬似ラベルを利用する新しいトレーニングフレームワークであるパースペクティブキュートレーニング(PCT)フレームワークを提案する。
PCTは、BEVセグメンテーションヘッドと共有される画像エンコーダにビュービュータスクヘッドを適用し、生成した擬似ラベルでトレーニングされるラベルなしデータを効果的に活用する。
ほぼ全てのカメラベースのBEVセグメンテーションアーキテクチャに画像エンコーダが存在するため、PCTは柔軟であり、既存のBEVアーキテクチャにも適用可能である。
PCTはラベルのないデータが利用できる様々な設定に適用できる。
本稿では,半教師付き学習(SSL)と教師なしドメイン適応(UDA)にPCTを適用した。
さらに,カメラドロップアウト(CamDrop)による強い入力摂動と,BEV機能ドロップアウト(BFD)による特徴摂動を導入する。
私たちの包括的なアプローチはシンプルで柔軟なものですが、SSLやUDAのさまざまなベースラインよりも大幅に改善されています。
関連論文リスト
- BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment [8.098296280937518]
本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。
ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
論文 参考訳(メタデータ) (2024-10-28T12:40:27Z) - Physically Feasible Semantic Segmentation [58.17907376475596]
最先端セマンティックセグメンテーションモデルは通常、データ駆動方式で最適化される。
本手法は,空間的クラス関係を規定する明示的な物理的制約を抽出する。
PhyFeaは、使用する最先端ネットワーク毎にmIoUが大幅に向上する。
論文 参考訳(メタデータ) (2024-08-26T22:39:08Z) - Point-In-Context: Understanding Point Cloud via In-Context Learning [67.20277182808992]
In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。
マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。
In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
論文 参考訳(メタデータ) (2024-04-18T17:32:32Z) - Few-Shot Panoptic Segmentation With Foundation Models [23.231014713335664]
約0ラベルのSegmenting Panoptic Information(SPINO)を提示することで、タスク非依存の画像特徴を活用して、少ショットのパノプティクスセグメンテーションを可能にすることを提案する。
本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。
提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
論文 参考訳(メタデータ) (2023-09-19T16:09:01Z) - CSP: Self-Supervised Contrastive Spatial Pre-Training for
Geospatial-Visual Representations [90.50864830038202]
ジオタグ付き画像の自己教師型学習フレームワークであるContrastive Spatial Pre-Training(CSP)を提案する。
デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト目的を用いて画像から効果的な位置表現を学習する。
CSPは、様々なラベル付きトレーニングデータサンプリング比と10~34%の相対的な改善で、モデル性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-01T23:11:18Z) - Towards Automated Polyp Segmentation Using Weakly- and Semi-Supervised
Learning and Deformable Transformers [8.01814397869811]
ポリープセグメンテーションは大腸癌のコンピュータ診断への重要なステップである。
ポリプセグメンテーションの手法の多くは、ピクセル単位のアノテートデータセットを必要とする。
本稿では,弱い注釈付き画像のみを用いて,ラベルなし画像の活用によりトレーニング可能な新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T20:44:12Z) - Panoramic Panoptic Segmentation: Insights Into Surrounding Parsing for
Mobile Agents via Unsupervised Contrastive Learning [93.6645991946674]
我々はパノラマパノラマパノプティクスのセグメンテーションを最も総合的なシーン理解として紹介する。
完全な周囲の理解は、移動エージェントに最大限の情報を提供する。
本稿では,標準的なピンホール画像のモデルトレーニングを可能にし,学習した特徴を別のドメインに転送するフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T20:07:15Z) - Semi-weakly Supervised Contrastive Representation Learning for Retinal
Fundus Images [0.2538209532048867]
本稿では,半弱化アノテーションを用いた表現学習のための,半弱化教師付きコントラスト学習フレームワークを提案する。
SWCLの移動学習性能を7つの公立網膜眼底データセットで実証的に検証した。
論文 参考訳(メタデータ) (2021-08-04T15:50:09Z) - Towards Unsupervised Sketch-based Image Retrieval [126.77787336692802]
本稿では,教師なし表現学習とスケッチ写真領域アライメントを同時に行う新しいフレームワークを提案する。
このフレームワークは,新しい教師なし設定では優れた性能を達成し,ゼロショット設定では最先端以上の性能を発揮する。
論文 参考訳(メタデータ) (2021-05-18T02:38:22Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。