論文の概要: OpenSD: Unified Open-Vocabulary Segmentation and Detection
- arxiv url: http://arxiv.org/abs/2312.06703v1
- Date: Sun, 10 Dec 2023 08:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-12-13 18:45:11.521683
- Title: OpenSD: Unified Open-Vocabulary Segmentation and Detection
- Title(参考訳): opensd: 統合オープンボキャブラリーセグメンテーションと検出
- Authors: Shuai Li, Minghan Li, Pengfei Wang, Lei Zhang
- Abstract要約: オープン語彙のセグメンテーションと検出タスクを処理するために,OpenSDと略されるユニバーサルトランスフォーマーベースのフレームワークを提案する。
エンドツーエンドのセグメンテーションと検出にCLIPをよりよく活用するために、語彙内ドメインと語彙外ドメインを扱うための2つの分類器を提案する。
その結果,OpenSDはクローズド・オープン・ボキャブラリ設定とオープン・ボキャブラリ設定の両方において,最先端のオープン・ボキャブラリセグメンテーションと検出方法よりも優れていた。
- 参考スコア(独自算出の注目度): 24.08879095731279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, a few open-vocabulary methods have been proposed by employing a
unified architecture to tackle generic segmentation and detection tasks.
However, their performance still lags behind the task-specific models due to
the conflict between different tasks, and their open-vocabulary capability is
limited due to the inadequate use of CLIP. To address these challenges, we
present a universal transformer-based framework, abbreviated as OpenSD, which
utilizes the same architecture and network parameters to handle open-vocabulary
segmentation and detection tasks. First, we introduce a decoder decoupled
learning strategy to alleviate the semantic conflict between thing and staff
categories so that each individual task can be learned more effectively under
the same framework. Second, to better leverage CLIP for end-to-end segmentation
and detection, we propose dual classifiers to handle the in-vocabulary domain
and out-of-vocabulary domain, respectively. The text encoder is further trained
to be region-aware for both thing and stuff categories through decoupled prompt
learning, enabling them to filter out duplicated and low-quality predictions,
which is important to end-to-end segmentation and detection. Extensive
experiments are conducted on multiple datasets under various circumstances. The
results demonstrate that OpenSD outperforms state-of-the-art open-vocabulary
segmentation and detection methods in both closed- and open-vocabulary
settings. Code is available at https://github.com/strongwolf/OpenSD
- Abstract(参考訳): 近年,汎用セグメンテーションと検出タスクに対処する統一アーキテクチャを用いて,いくつかのオープン語彙法が提案されている。
しかし、タスク間の衝突やCLIPの不十分な使用により、オープン語彙能力に制限があるため、タスク固有のモデルにはまだパフォーマンスが遅れている。
これらの課題に対処するため,オープンボキャブラリセグメンテーションと検出タスクの処理に同じアーキテクチャとネットワークパラメータを利用する,OpenSDと呼ばれるユニバーサルトランスフォーマーベースのフレームワークを提案する。
まず,各タスクを同一の枠組み下でより効果的に学習できるように,モノとスタッフのセマンティックな対立を軽減するためのデコーダ分離学習戦略を導入する。
第二に、CLIPをエンドツーエンドのセグメンテーションと検出に活用するために、語彙内ドメインと語彙外ドメインをそれぞれ扱う2つの分類器を提案する。
テキストエンコーダはさらに、分離されたプロンプト・ラーニングを通じて、物と物の両方のカテゴリにリージョン対応するように訓練され、エンドツーエンドのセグメンテーションと検出に重要な、重複した低品質の予測をフィルタできる。
様々な状況下で複数のデータセットに対して大規模な実験を行う。
その結果,OpenSDはクローズド・オープン・ボキャブラリ設定とオープン・ボキャブラリ設定の両方において,最先端のオープン・ボキャブラリセグメンテーションと検出方法よりも優れていた。
コードはhttps://github.com/strongwolf/OpenSDで入手できる。
関連論文リスト
- Language-Guided Open-World Anomaly Segmentation [81.13615952207685]
ClipomalyはCLIPをベースとした世界初のオープンワールドおよび異常セグメンテーション手法である。
ゼロショットアプローチでは、異常固有のトレーニングデータを必要とせず、未知のオブジェクトをセグメント化するためにCLIPの共有画像テキスト埋め込みスペースを活用する。
本モデルでは,推論時に語彙を動的に拡張し,クラス定義以外の異常の堅牢な検出と命名を可能にする。
論文 参考訳(メタデータ) (2025-12-01T09:08:59Z) - SPARTA: Evaluating Reasoning Segmentation Robustness through Black-Box Adversarial Paraphrasing in Text Autoencoder Latent Space [11.534994345027362]
MLLM(Multimodal large language model)は、推論セグメンテーションなどの視覚言語タスクにおいて顕著な機能を示す。
そこで本研究では,従来の問合せの意味を保ちつつ,セグメンテーション性能を劣化させつつ,文法的に正しい言い回しを生成する,新しい逆の言い回しタスクを提案する。
テキストオートエンコーダの低次元意味潜在空間で動作するブラックボックスであるSPARTAを導入する。
論文 参考訳(メタデータ) (2025-10-28T14:09:05Z) - COS3D: Collaborative Open-Vocabulary 3D Segmentation [86.41533122575981]
COS3Dは、新しい協調的なプロンプトセグメンテーションフレームワークである。
まず、インスタンスフィールドと言語フィールドからなる協調フィールドという新しい概念を紹介する。
推論において,2つの分野の異なる特徴をブリッジするために,適応型言語からインスタンスへの即時改善を設計する。
論文 参考訳(メタデータ) (2025-10-23T05:45:15Z) - Unified Open-World Segmentation with Multi-Modal Prompts [53.04555122154363]
COSINEはオープン・ボキャブラリ・セグメンテーションとイン・コンテクスト・セグメンテーションをマルチモーダル・プロンプトと統合したオープンワールドセグメンテーション・モデルである。
我々はCOSINEがオープン語彙とコンテキスト内セグメンテーションタスクの両方で大幅な性能改善を実現していることを示す。
論文 参考訳(メタデータ) (2025-10-12T09:45:51Z) - Text-guided Visual Prompt DINO for Generic Segmentation [31.33676182634522]
テキスト誘導型ビジュアルプロンプトDINOフレームワークであるPrompt-DINOを提案する。
まず、テキスト/視覚的プロンプトとバックボーン機能を統一する早期融合機構を導入する。
第二に、DreTRアーキテクチャの順序整合クエリ選択を設計する。
第3に,PR(Prompting, Prompting, Prompting, RAP)モデルによる認識情報を利用した生成データエンジンを開発する。
論文 参考訳(メタデータ) (2025-08-08T09:09:30Z) - DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation [16.64056234334767]
Open-vocabulary semantic segmentationは、画像をピクセルレベルで異なる意味領域に分割することを目的としている。
現在の方法は、CLIPのような訓練済みの視覚言語モデルのテキスト埋め込みを利用する。
本稿では,この課題に対する二重プロンプトフレームワークDPSegを提案する。
論文 参考訳(メタデータ) (2025-05-16T20:25:42Z) - A Novel Decomposed Feature-Oriented Framework for Open-Set Semantic Segmentation on LiDAR Data [6.427051055902494]
本稿では,LiDARデータのオープンセットセマンティックセマンティックセグメンテーションのための特徴指向フレームワークを提案する。
閉集合セマンティックセマンティックセグメンテーションを同時に実行し、未知のオブジェクトに特有の特徴を生成するために、デュアルデコーダネットワークを設計する。
近接したセマンティックセグメンテーションと異常検出の結果を統合することで、効率的な特徴駆動型LiDARオープンセットセマンティックセグメンテーションを実現する。
論文 参考訳(メタデータ) (2025-03-14T05:40:05Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。
MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。
オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文 参考訳(メタデータ) (2024-08-27T04:45:53Z) - SHiNe: Semantic Hierarchy Nexus for Open-vocabulary Object Detection [31.464227593768324]
本稿ではセマンティック階層Nexus(SHiNe)について紹介する。
SHiNeは様々な語彙の粒度をまたいだ堅牢性を高め、+31.9%のmAP50と基底的真理階層を達成している。
SHiNeは無訓練で、市販のOvOD検出器とシームレスに統合できる。
論文 参考訳(メタデータ) (2024-05-16T12:42:06Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - A Simple Framework for Open-Vocabulary Segmentation and Detection [85.21641508535679]
我々は,異なるセグメンテーションと検出データセットから共同で学習する,シンプルなオープン語彙検出フレームワークOpenSeeDを提案する。
まず、事前学習されたテキストエンコーダを導入し、視覚概念を2つのタスクにエンコードし、それらの共通意味空間を学習する。
プレトレーニング後,本モデルでは,セグメンテーションと検出の両方において,競争力あるいは強いゼロショット転送性を示す。
論文 参考訳(メタデータ) (2023-03-14T17:58:34Z) - Joint Inductive and Transductive Learning for Video Object Segmentation [107.32760625159301]
半教師付きオブジェクトセグメンテーションは、第1フレームのマスクだけを与えられたビデオシーケンスで対象オブジェクトをセグメンテーションするタスクである。
過去の最も優れた手法は、マッチングベースの帰納的推論やオンライン帰納的学習を採用していた。
本稿では,トランスダクティブ学習とインダクティブ学習を統合したフレームワークに統合し,それら間の補完を利用して,高精度かつ堅牢なビデオオブジェクトセグメンテーションを提案する。
論文 参考訳(メタデータ) (2021-08-08T16:25:48Z) - Segmental Contrastive Predictive Coding for Unsupervised Word
Segmentation [33.35220574193796]
本稿では,信号構造を音素レベルでより高レベルにモデル化できるSCPC( segmental contrastive predictive coding)フレームワークを提案する。
微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化する。
本稿では,TIMITおよびBuckeyeデータセットにおける既存の音素・単語分割手法より,単一モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-03T23:12:05Z) - Semi-supervised Medical Image Segmentation through Dual-task Consistency [18.18484640332254]
本稿では,画素単位のセグメンテーションマップと,ターゲットの幾何認識レベルセット表現を共同で予測する,新しいデュアルタスクディープネットワークを提案する。
本手法はラベルなしデータを組み込むことで性能を大幅に向上させることができる。
当フレームワークは,最先端の半教師付き医用画像分割法より優れている。
論文 参考訳(メタデータ) (2020-09-09T17:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。