論文の概要: OneFormer: One Transformer to Rule Universal Image Segmentation
- arxiv url: http://arxiv.org/abs/2211.06220v1
- Date: Thu, 10 Nov 2022 18:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:31:09.544317
- Title: OneFormer: One Transformer to Rule Universal Image Segmentation
- Title(参考訳): OneFormer:Universal Image Segmentationをルールする1つのトランスフォーマー
- Authors: Jitesh Jain, Jiachen Li, MangTik Chiu, Ali Hassani, Nikita Orlov,
Humphrey Shi
- Abstract要約: OneFormerは、マルチタスク・トレイン・オンス設計でセグメンテーションを統一する普遍的なイメージセグメンテーションフレームワークである。
本稿では,各領域の真理に基づく学習を可能にするタスク条件付き共同学習戦略を提案する。
我々は新しいConvNeXtとDiのバックボーンでさらにパフォーマンスの改善を観察する。
- 参考スコア(独自算出の注目度): 14.961570085219883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal Image Segmentation is not a new concept. Past attempts to unify
image segmentation in the last decades include scene parsing, panoptic
segmentation, and, more recently, new panoptic architectures. However, such
panoptic architectures do not truly unify image segmentation because they need
to be trained individually on the semantic, instance, or panoptic segmentation
to achieve the best performance. Ideally, a truly universal framework should be
trained only once and achieve SOTA performance across all three image
segmentation tasks. To that end, we propose OneFormer, a universal image
segmentation framework that unifies segmentation with a multi-task train-once
design. We first propose a task-conditioned joint training strategy that
enables training on ground truths of each domain (semantic, instance, and
panoptic segmentation) within a single multi-task training process. Secondly,
we introduce a task token to condition our model on the task at hand, making
our model task-dynamic to support multi-task training and inference. Thirdly,
we propose using a query-text contrastive loss during training to establish
better inter-task and inter-class distinctions. Notably, our single OneFormer
model outperforms specialized Mask2Former models across all three segmentation
tasks on ADE20k, CityScapes, and COCO, despite the latter being trained on each
of the three tasks individually with three times the resources. With new
ConvNeXt and DiNAT backbones, we observe even more performance improvement. We
believe OneFormer is a significant step towards making image segmentation more
universal and accessible. To support further research, we open-source our code
and models at https://github.com/SHI-Labs/OneFormer
- Abstract(参考訳): ユニバーサルイメージセグメンテーションは新しい概念ではない。
過去数十年でイメージセグメンテーションを統合する試みには、シーン解析、panopticセグメンテーション、そして最近では新しいpanopticアーキテクチャが含まれる。
しかし、そのようなpanopticアーキテクチャは、最高のパフォーマンスを達成するために、セマンティック、インスタンス、panopticセグメンテーションを個別に訓練する必要があるため、画像セグメンテーションを真に統一するものではない。
理想的には、真の普遍的なフレームワークは一度だけ訓練され、3つのイメージセグメンテーションタスクすべてでSOTAのパフォーマンスを達成するべきである。
そこで我々は,マルチタスク・トレイン・オンス設計でセグメンテーションを統一するユニバーサルイメージセグメンテーションフレームワークであるOneFormerを提案する。
まず,1つのマルチタスク訓練プロセスにおいて,各ドメインの基底的真理(セマンティクス,インスタンス,パンオプティカルセグメンテーション)のトレーニングを可能にするタスクコンディショニング合同トレーニング戦略を提案する。
第2に,開発中のタスクのモデルを条件付けするタスクトークンを導入し,マルチタスクトレーニングと推論をサポートするためのモデルタスクダイナミックにします。
第3に,学習中のクエリテキストのコントラストロスを用いたタスク間およびクラス間区別の改善を提案する。
特に、私たちのOneFormerモデルは、ADE20k、CityScapes、COCOの3つのセグメンテーションタスクすべてで、特別なMask2Formerモデルよりも優れています。
新しいConvNeXtとDiNATのバックボーンでは、さらなるパフォーマンス向上が観察できる。
oneformerは、画像セグメンテーションをより普遍的でアクセスしやすいものにするための重要なステップだと考えています。
さらなる研究を支援するため、私たちはhttps://github.com/SHI-Labs/OneFormerでコードとモデルをオープンソース化しました。
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - YOLOR-Based Multi-Task Learning [12.5920336941241]
マルチタスク学習(MTL)は、単一のモデルを用いて複数のタスクを学習し、一般化と共有セマンティクスを前提として、これらすべてのタスクを共同で改善することを目的としている。
マルチタスクに特化したネットワークアーキテクチャYOLOR(You Only Learn One Representation)の構築を提案する。
本手法は,低パラメータ数を維持しつつ,事前学習を行わずに,全てのタスクにおける競合性能を実現する。
論文 参考訳(メタデータ) (2023-09-29T01:42:21Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Masked-attention Mask Transformer for Universal Image Segmentation [180.73009259614494]
Masked-attention Mask Transformer (Mask2Former)は,任意の画像セグメンテーションタスク(パノプティクス,インスタンス,セマンティクス)に対処可能な新しいアーキテクチャである。
主要な構成要素は、予測されたマスク領域内での横断的な注意を制限して、局所的な特徴を抽出するマスクアテンションである。
研究の労力を少なくとも3倍に削減することに加えて、4つの一般的なデータセットにおいて、最高の特殊アーキテクチャよりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-12-02T18:59:58Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。