論文の概要: A Simple and Generalist Approach for Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2408.16504v2
- Date: Fri, 07 Mar 2025 13:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:21.357351
- Title: A Simple and Generalist Approach for Panoptic Segmentation
- Title(参考訳): パノプティカルセグメンテーションのためのシンプルで汎用的なアプローチ
- Authors: Nedyalko Prisadnikov, Wouter Van Gansbeke, Danda Pani Paudel, Luc Van Gool,
- Abstract要約: 本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。
これはトレーニング中の不均衡に起因することを示し、その削減のための新しい方法を提案する。
提案手法は,MS-COCOデータセット上で55.1のPQを実現する。
- 参考スコア(独自算出の注目度): 57.94892855772925
- License:
- Abstract: Panoptic segmentation is an important computer vision task, where the current state-of-the-art solutions require specialized components to perform well. We propose a simple generalist framework based on a deep encoder - shallow decoder architecture with per-pixel prediction. Essentially fine-tuning a massively pretrained image model with minimal additional components. Naively this method does not yield good results. We show that this is due to imbalance during training and propose a novel method for reducing it - centroid regression in the space of spectral positional embeddings. Our method achieves panoptic quality (PQ) of 55.1 on the challenging MS-COCO dataset, state-of-the-art performance among generalist methods.
- Abstract(参考訳): パノプティックセグメンテーション(英: Panoptic segmentation)は、現在の最先端のソリューションが機能するために特別なコンポーネントを必要とする重要なコンピュータビジョンタスクである。
本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。
基本的には、最小限の追加コンポーネントでトレーニング済みの膨大なイメージモデルを微調整する。
この方法は必ずしも良い結果を出さない。
これはトレーニング中の不均衡に起因することを示し、スペクトル位置埋め込みの空間におけるセントロイド回帰を減少させる新しい方法を提案する。
提案手法は,MS-COCOデータセットに対する55.1のパノプティクス品質(PQ)を実現する。
関連論文リスト
- Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings [12.79344668998054]
正確な局所境界線とグローバルな形状コヒーレンスを実現するために,SwIPE(Segmentation with Implicit Patch Embeddings)を提案する。
その結果,最近の暗黙的アプローチよりもSwIPEは大幅に改善され,パラメータが10倍以上の最先端の離散手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-23T20:55:11Z) - Studying How to Efficiently and Effectively Guide Models with Explanations [52.498055901649025]
「モデルガイダンス」とは「正しい理由のために正しい」ことを保証するためにモデルの説明を規則化する考え方である。
PASCAL VOC 2007 および MS COCO 2014 データセット上で, 各種損失関数, 帰属方法, モデル, 誘導深度について詳細な評価を行う。
具体的には、一般的に使用されるセグメンテーションマスクよりもはるかに安価で入手可能なバウンディングボックスアノテーションを用いてモデルをガイドする。
論文 参考訳(メタデータ) (2023-03-21T15:34:50Z) - Interactive Segmentation as Gaussian Process Classification [58.44673380545409]
クリックベースのインタラクティブセグメンテーション(IS)は、ユーザインタラクション下で対象オブジェクトを抽出することを目的としている。
現在のディープラーニング(DL)ベースの手法のほとんどは、主にセマンティックセグメンテーションの一般的なパイプラインに従っている。
本稿では,各画像上でガウス過程(GP)に基づく画素単位のバイナリ分類モデルとしてISタスクを定式化することを提案する。
論文 参考訳(メタデータ) (2023-02-28T14:01:01Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - Improving Generalization in Federated Learning by Seeking Flat Minima [23.937135834522145]
フェデレートされた設定で訓練されたモデルは、しばしば劣化したパフォーマンスに悩まされ、一般化に失敗する。
本研究では,損失の幾何レンズとヘッセン固有スペクトルを用いて,そのような挙動を考察する。
損失面のシャープさと一般化ギャップを接続する先行研究により,サーバ側のシャープネス・アウェア・最小化 (SAM) や適応バージョン (ASAM) をローカルにトレーニングすることで,一般化を大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2022-03-22T16:01:04Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。