論文の概要: OpenSD: Unified Open-Vocabulary Segmentation and Detection
- arxiv url: http://arxiv.org/abs/2312.06703v1
- Date: Sun, 10 Dec 2023 08:51:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:45:11.521683
- Title: OpenSD: Unified Open-Vocabulary Segmentation and Detection
- Title(参考訳): opensd: 統合オープンボキャブラリーセグメンテーションと検出
- Authors: Shuai Li, Minghan Li, Pengfei Wang, Lei Zhang
- Abstract要約: オープン語彙のセグメンテーションと検出タスクを処理するために,OpenSDと略されるユニバーサルトランスフォーマーベースのフレームワークを提案する。
エンドツーエンドのセグメンテーションと検出にCLIPをよりよく活用するために、語彙内ドメインと語彙外ドメインを扱うための2つの分類器を提案する。
その結果,OpenSDはクローズド・オープン・ボキャブラリ設定とオープン・ボキャブラリ設定の両方において,最先端のオープン・ボキャブラリセグメンテーションと検出方法よりも優れていた。
- 参考スコア(独自算出の注目度): 24.08879095731279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a few open-vocabulary methods have been proposed by employing a
unified architecture to tackle generic segmentation and detection tasks.
However, their performance still lags behind the task-specific models due to
the conflict between different tasks, and their open-vocabulary capability is
limited due to the inadequate use of CLIP. To address these challenges, we
present a universal transformer-based framework, abbreviated as OpenSD, which
utilizes the same architecture and network parameters to handle open-vocabulary
segmentation and detection tasks. First, we introduce a decoder decoupled
learning strategy to alleviate the semantic conflict between thing and staff
categories so that each individual task can be learned more effectively under
the same framework. Second, to better leverage CLIP for end-to-end segmentation
and detection, we propose dual classifiers to handle the in-vocabulary domain
and out-of-vocabulary domain, respectively. The text encoder is further trained
to be region-aware for both thing and stuff categories through decoupled prompt
learning, enabling them to filter out duplicated and low-quality predictions,
which is important to end-to-end segmentation and detection. Extensive
experiments are conducted on multiple datasets under various circumstances. The
results demonstrate that OpenSD outperforms state-of-the-art open-vocabulary
segmentation and detection methods in both closed- and open-vocabulary
settings. Code is available at https://github.com/strongwolf/OpenSD
- Abstract(参考訳): 近年,汎用セグメンテーションと検出タスクに対処する統一アーキテクチャを用いて,いくつかのオープン語彙法が提案されている。
しかし、タスク間の衝突やCLIPの不十分な使用により、オープン語彙能力に制限があるため、タスク固有のモデルにはまだパフォーマンスが遅れている。
これらの課題に対処するため,オープンボキャブラリセグメンテーションと検出タスクの処理に同じアーキテクチャとネットワークパラメータを利用する,OpenSDと呼ばれるユニバーサルトランスフォーマーベースのフレームワークを提案する。
まず,各タスクを同一の枠組み下でより効果的に学習できるように,モノとスタッフのセマンティックな対立を軽減するためのデコーダ分離学習戦略を導入する。
第二に、CLIPをエンドツーエンドのセグメンテーションと検出に活用するために、語彙内ドメインと語彙外ドメインをそれぞれ扱う2つの分類器を提案する。
テキストエンコーダはさらに、分離されたプロンプト・ラーニングを通じて、物と物の両方のカテゴリにリージョン対応するように訓練され、エンドツーエンドのセグメンテーションと検出に重要な、重複した低品質の予測をフィルタできる。
様々な状況下で複数のデータセットに対して大規模な実験を行う。
その結果,OpenSDはクローズド・オープン・ボキャブラリ設定とオープン・ボキャブラリ設定の両方において,最先端のオープン・ボキャブラリセグメンテーションと検出方法よりも優れていた。
コードはhttps://github.com/strongwolf/OpenSDで入手できる。
関連論文リスト
- GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。
MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。
オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection [31.464227593768324]
本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-05-16T12:42:06Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - Semi-supervised Medical Image Segmentation through Dual-task Consistency [18.18484640332254]
本稿では,画素単位のセグメンテーションマップと,ターゲットの幾何認識レベルセット表現を共同で予測する,新しいデュアルタスクディープネットワークを提案する。
本手法はラベルなしデータを組み込むことで性能を大幅に向上させることができる。
当フレームワークは,最先端の半教師付き医用画像分割法より優れている。
論文 参考訳(メタデータ) (2020-09-09T17:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。