論文の概要: Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation
- arxiv url: http://arxiv.org/abs/2301.00805v1
- Date: Mon, 2 Jan 2023 18:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:19:16.714763
- Title: Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation
- Title(参考訳): キャプションで裏切られた:open vocabularyインスタンスセグメンテーションのための共同キャプショングラウンドと生成
- Authors: Jianzong Wu, Xiangtai Li, Henghui Ding, Xia Li, Guangliang Cheng,
Yunhai Tong, Chen Change Loy
- Abstract要約: マスクアノテーションを使わずに、インスタンスレベルのオープン語彙セグメンテーションに焦点をあてる。
画像キャプションの助けを借りて, 字幕内の数千のオブジェクト名詞を活用して, 新規クラスの発見を目的とした, シンプルかつ効果的なフレームワークについて検討する。
- 参考スコア(独自算出の注目度): 80.48979302400868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus on instance-level open vocabulary segmentation,
intending to expand a segmenter for instance-wise novel categories without mask
annotations. We investigate a simple yet effective framework with the help of
image captions, focusing on exploiting thousands of object nouns in captions to
discover instances of novel classes. Rather than adopting pretrained caption
models or using massive caption datasets with complex pipelines, we propose an
end-to-end solution from two aspects: caption grounding and caption generation.
In particular, we devise a joint Caption Grounding and Generation (CGG)
framework based on a Mask Transformer baseline. The framework has a novel
grounding loss that performs explicit and implicit multi-modal feature
alignments. We further design a lightweight caption generation head to allow
for additional caption supervision. We find that grounding and generation
complement each other, significantly enhancing the segmentation performance for
novel categories. We conduct extensive experiments on the COCO dataset with two
settings: Open Vocabulary Instance Segmentation (OVIS) and Open Set Panoptic
Segmentation (OSPS). The results demonstrate the superiority of our CGG
framework over previous OVIS methods, achieving a large improvement of 6.8% mAP
on novel classes without extra caption data. Our method also achieves over 15%
PQ improvements for novel classes on the OSPS benchmark under various settings.
- Abstract(参考訳): 本稿では,インスタンスレベルのオープンボキャブラリセグメンテーションに注目し,マスアノテーションを使わずにインスタンス単位の新規カテゴリのセグメンテーションを拡張する。
画像キャプションの助けを借りて, 字幕内の数千のオブジェクト名詞を活用して, 新規クラスの発見を目的とした, シンプルかつ効果的なフレームワークについて検討する。
事前学習されたキャプションモデルを採用するか,複雑なパイプラインを用いた大規模なキャプションデータセットを使用するかわりに,キャプションのグラウンド化とキャプション生成という2つの側面からエンドツーエンドなソリューションを提案する。
特に,マスクトランスフォーマーのベースラインに基づくcgg(joint caption grounding and generation)フレームワークを考案する。
このフレームワークには、明示的で暗黙的なマルチモーダルな特徴アライメントを実行する、新たなグラウンディング損失がある。
さらに、追加のキャプション監視を可能にする軽量キャプション生成ヘッドを設計する。
接地と生成は相互に補完し,新しいカテゴリーのセグメンテーション性能を著しく向上させる。
OVIS(Open Vocabulary Instance Segmentation)とOSPS(Open Set Panoptic Segmentation)の2つの設定でCOCOデータセットの広範な実験を行う。
その結果,従来のOVIS法よりもCGGフレームワークが優れていることが示され,新たな授業ではキャプションデータなしで6.8%mAPが向上した。
また,OSPSベンチマークにおける新しいクラスに対して,様々な設定で15%以上のPQ改善を実現する。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Self-Guided Open-Vocabulary Semantic Segmentation [14.403912198859722]
VLM(Vision-Language Models)は、オープンな画像理解タスクのための有望なツールとして登場した。
オープン語彙セグメンテーションのためのSelf-Guided Semantic(Self-Seg)フレームワークを提案する。
クラス名を指定せずにオープン語彙セグメンテーションを行うため,Pascal VOC,ADE20K,CityScapesの最先端結果を得た。
論文 参考訳(メタデータ) (2023-12-07T18:55:52Z) - Open-Vocabulary Camouflaged Object Segmentation [71.82644727907146]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入し,大規模複合シーンデータセット(textbfOVCamo)を構築した。
パラメータ固定CLIPに付加された強力な単一段開語彙下線下線下線下線下線下線下線下線下線を構築。
クラス意味知識の指導とエッジと奥行きからの視覚構造的手がかりの補足を統合する
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Open-vocabulary Panoptic Segmentation with Embedding Modulation [71.15502078615587]
オープン語彙のイメージセグメンテーションは、現実世界における重要な応用のために注目を集めている。
従来のクローズド・ボキャブラリ・セグメンテーション法は、新しいオブジェクトを特徴づけることができないが、最近のいくつかのオープン・ボキャブラリ試みは、満足のいく結果を得る。
オープン語彙パノプトンのための全能的でデータ効率のよいフレームワークであるOPSNetを提案する。
論文 参考訳(メタデータ) (2023-03-20T17:58:48Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - A Few Guidelines for Incremental Few-Shot Segmentation [57.34237650765928]
事前訓練されたセグメンテーションモデルと、新しいクラスを含む画像が少ないことを前提として、我々が目指すのは、以前に見たセグメンテーション能力を維持しながら、新しいクラスをセグメンテーションすることである。
このシナリオにおけるエンド・ツー・エンドのトレーニングの主な問題はどのようなものかを示します。
一 バッチ正規化統計を、バッチ正規化で修正できる新しいクラスへ向けての漂流すること。
二 旧クラスの忘れ物 正規化戦略で解決できるもの。
論文 参考訳(メタデータ) (2020-11-30T20:45:56Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。