論文の概要: Few-Shot Panoptic Segmentation With Foundation Models
- arxiv url: http://arxiv.org/abs/2309.10726v3
- Date: Fri, 1 Mar 2024 13:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 14:22:19.008390
- Title: Few-Shot Panoptic Segmentation With Foundation Models
- Title(参考訳): 基礎モデルを用いた数発パンオプティカルセグメンテーション
- Authors: Markus K\"appeler, K\"ursat Petek, Niclas V\"odisch, Wolfram Burgard,
Abhinav Valada
- Abstract要約: 約0ラベルのSegmenting Panoptic Information(SPINO)を提示することで、タスク非依存の画像特徴を活用して、少ショットのパノプティクスセグメンテーションを可能にすることを提案する。
本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。
提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
- 参考スコア(独自算出の注目度): 23.231014713335664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art methods for panoptic segmentation require an immense
amount of annotated training data that is both arduous and expensive to obtain
posing a significant challenge for their widespread adoption. Concurrently,
recent breakthroughs in visual representation learning have sparked a paradigm
shift leading to the advent of large foundation models that can be trained with
completely unlabeled images. In this work, we propose to leverage such
task-agnostic image features to enable few-shot panoptic segmentation by
presenting Segmenting Panoptic Information with Nearly 0 labels (SPINO). In
detail, our method combines a DINOv2 backbone with lightweight network heads
for semantic segmentation and boundary estimation. We show that our approach,
albeit being trained with only ten annotated images, predicts high-quality
pseudo-labels that can be used with any existing panoptic segmentation method.
Notably, we demonstrate that SPINO achieves competitive results compared to
fully supervised baselines while using less than 0.3% of the ground truth
labels, paving the way for learning complex visual recognition tasks leveraging
foundation models. To illustrate its general applicability, we further deploy
SPINO on real-world robotic vision systems for both outdoor and indoor
environments. To foster future research, we make the code and trained models
publicly available at http://spino.cs.uni-freiburg.de.
- Abstract(参考訳): 現在のパンオプティカルセグメンテーションの最先端手法では、膨大な量の注釈付きトレーニングデータが必要であり、広く採用される上で大きな課題となっている。
同時に、視覚表現学習の最近のブレークスルーは、完全にラベルのないイメージでトレーニングできる大規模な基礎モデルが出現するきっかけとなった。
本研究では,このようなタスクに依存しない画像特徴を活用し,0に近いラベル(spino)でパノプティカル情報をセグメンテーションすることにより,少数のパノプティカルセグメンテーションを実現することを提案する。
本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。
提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
特に,SPINOは,基礎モデルを活用した複雑な視覚認識タスクの学習方法として,基礎的真理ラベルの0.3%未満を使用しながら,完全教師付きベースラインと比較して,競争力のある結果が得られることを示す。
汎用性を示すため,室内環境と屋外環境の両方において,実世界のロボットビジョンシステムにSPINOを更に展開する。
将来の研究を促進するため、コードとトレーニングされたモデルをhttp://spino.cs.uni-freiburg.deで公開しています。
関連論文リスト
- Freestyle Sketch-in-the-Loop Image Segmentation [116.1810651297801]
そこで我々は,視覚概念を部分的に,完全に,あるいはグループ化することで,視覚概念のセグメンテーションを可能にする,スケッチ・イン・ザ・ループ(sketch-in-the-loop)イメージセグメンテーションフレームワークを提案する。
このフレームワークは、スケッチベースの画像検索モデルと大規模事前学習モデルとの相乗効果を生かしている。
我々の目的による拡張戦略は、スケッチ誘導マスク生成の汎用性を高め、複数のレベルでセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2025-01-27T13:07:51Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - A Good Foundation is Worth Many Labels: Label-Efficient Panoptic Segmentation [22.440065488051047]
ロボット知覚に学習ベースのモデルを広く応用する上での課題は、注釈付きトレーニングデータの必要量を大幅に削減することである。
視覚基礎モデルにより舗装された基礎を生かし、セマンティックセグメンテーションとオブジェクト境界検出のために2つの軽量ネットワークヘッドを訓練する。
PASTELはアノテーションが少なくてもラベル効率の良いセグメンテーションの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-29T12:23:29Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。
ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。
提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T08:47:06Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - Image Understands Point Cloud: Weakly Supervised 3D Semantic
Segmentation via Association Learning [59.64695628433855]
ラベルのない画像から補完的な情報を取り入れた3次元セグメンテーションのための新しいクロスモダリティ弱教師付き手法を提案する。
基本的に、ラベルの小さな部分のパワーを最大化するために、アクティブなラベリング戦略を備えたデュアルブランチネットワークを設計する。
提案手法は,1%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていた。
論文 参考訳(メタデータ) (2022-09-16T07:59:04Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。