論文の概要: FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
- arxiv url: http://arxiv.org/abs/2303.17225v1
- Date: Thu, 30 Mar 2023 08:42:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:57:42.710849
- Title: FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation
- Title(参考訳): FreeSeg:Unified, Universal, Open-Vocabulary Image Segmentation
- Authors: Jie Qin, Jie Wu, Pengxiang Yan, Ming Li, Ren Yuxi, Xuefeng Xiao,
Yitong Wang, Rui Wang, Shilei Wen, Xin Pan, Xingang Wang
- Abstract要約: FreeSegはUnified、Universal、Open-Vocabulary Imageを実現するための汎用フレームワークである。
我々は,FreeSegが3つのセグメンテーションタスクの性能と一般化に新たな成果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 42.89720785573885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, open-vocabulary learning has emerged to accomplish segmentation for
arbitrary categories of text-based descriptions, which popularizes the
segmentation system to more general-purpose application scenarios. However,
existing methods devote to designing specialized architectures or parameters
for specific segmentation tasks. These customized design paradigms lead to
fragmentation between various segmentation tasks, thus hindering the uniformity
of segmentation models. Hence in this paper, we propose FreeSeg, a generic
framework to accomplish Unified, Universal and Open-Vocabulary Image
Segmentation. FreeSeg optimizes an all-in-one network via one-shot training and
employs the same architecture and parameters to handle diverse segmentation
tasks seamlessly in the inference procedure. Additionally, adaptive prompt
learning facilitates the unified model to capture task-aware and
category-sensitive concepts, improving model robustness in multi-task and
varied scenarios. Extensive experimental results demonstrate that FreeSeg
establishes new state-of-the-art results in performance and generalization on
three segmentation tasks, which outperforms the best task-specific
architectures by a large margin: 5.5% mIoU on semantic segmentation, 17.6% mAP
on instance segmentation, 20.1% PQ on panoptic segmentation for the unseen
class on COCO.
- Abstract(参考訳): 近年、オープン語彙学習がテキストベースの記述の任意のカテゴリのセグメンテーションを実現し、より汎用的なアプリケーションシナリオにセグメンテーションシステムを普及させている。
しかし、既存の手法は特定のセグメンテーションタスクのための特殊なアーキテクチャやパラメータの設計に特化している。
これらのカスタマイズされた設計パラダイムは、様々なセグメンテーションタスク間の断片化を招き、セグメンテーションモデルの均一性を妨げる。
そこで本稿では,Unified, Universal and Open-Vocabulary Image Segmentationを実現するための汎用フレームワークであるFreeSegを提案する。
FreeSegはワンショットトレーニングを通じてオールインワンネットワークを最適化し、推論手順で多様なセグメンテーションタスクをシームレスに処理するために同じアーキテクチャとパラメータを使用する。
さらに、適応型プロンプト学習は、統一モデルにより、タスク認識とカテゴリセンシティブの概念をキャプチャし、マルチタスクおよびさまざまなシナリオにおけるモデルのロバスト性を改善する。
広範囲な実験結果から、freesegは3つのセグメンテーションタスクのパフォーマンスと一般化を新たに確立し、最高のタスク固有のアーキテクチャを大差で上回ることを示した: セグメンテーションの5.5%miou、インスタンスセグメンテーションの17.6%、cocoのunseenクラスのためのpanopticセグメンテーションの20.1%。
関連論文リスト
- Visual Prompt Selection for In-Context Learning Segmentation [77.15684360470152]
本稿では,サンプル選択戦略の再考と改善に焦点をあてる。
まず、ICLに基づくセグメンテーションモデルが異なる文脈に敏感であることを示す。
さらに、経験的証拠は、文脈的プロンプトの多様性がセグメンテーションを導く上で重要な役割を担っていることを示している。
論文 参考訳(メタデータ) (2024-07-14T15:02:54Z) - USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - Universal Segmentation at Arbitrary Granularity with Language
Instruction [59.76130089644841]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文 参考訳(メタデータ) (2023-12-04T04:47:48Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Integrative Few-Shot Learning for Classification and Segmentation [37.50821005917126]
少数ショット分類とセグメンテーション(FS-CS)の統合タスクについて紹介する。
FS-CSは、ターゲットクラスがいくつかの例で与えられるとき、クエリイメージでターゲットオブジェクトを分類し、セグメントすることを目的としている。
本稿では,FS-CSのための統合的数ショット学習フレームワークを提案し,学習者がクラスワイドな前景マップを構築するように訓練する。
論文 参考訳(メタデータ) (2022-03-29T16:14:40Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。