論文の概要: Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation
- arxiv url: http://arxiv.org/abs/2301.00805v1
- Date: Mon, 2 Jan 2023 18:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:19:16.714763
- Title: Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation
- Title(参考訳): キャプションで裏切られた:open vocabularyインスタンスセグメンテーションのための共同キャプショングラウンドと生成
- Authors: Jianzong Wu, Xiangtai Li, Henghui Ding, Xia Li, Guangliang Cheng,
Yunhai Tong, Chen Change Loy
- Abstract要約: マスクアノテーションを使わずに、インスタンスレベルのオープン語彙セグメンテーションに焦点をあてる。
画像キャプションの助けを借りて, 字幕内の数千のオブジェクト名詞を活用して, 新規クラスの発見を目的とした, シンプルかつ効果的なフレームワークについて検討する。
- 参考スコア(独自算出の注目度): 80.48979302400868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we focus on instance-level open vocabulary segmentation,
intending to expand a segmenter for instance-wise novel categories without mask
annotations. We investigate a simple yet effective framework with the help of
image captions, focusing on exploiting thousands of object nouns in captions to
discover instances of novel classes. Rather than adopting pretrained caption
models or using massive caption datasets with complex pipelines, we propose an
end-to-end solution from two aspects: caption grounding and caption generation.
In particular, we devise a joint Caption Grounding and Generation (CGG)
framework based on a Mask Transformer baseline. The framework has a novel
grounding loss that performs explicit and implicit multi-modal feature
alignments. We further design a lightweight caption generation head to allow
for additional caption supervision. We find that grounding and generation
complement each other, significantly enhancing the segmentation performance for
novel categories. We conduct extensive experiments on the COCO dataset with two
settings: Open Vocabulary Instance Segmentation (OVIS) and Open Set Panoptic
Segmentation (OSPS). The results demonstrate the superiority of our CGG
framework over previous OVIS methods, achieving a large improvement of 6.8% mAP
on novel classes without extra caption data. Our method also achieves over 15%
PQ improvements for novel classes on the OSPS benchmark under various settings.
- Abstract(参考訳): 本稿では,インスタンスレベルのオープンボキャブラリセグメンテーションに注目し,マスアノテーションを使わずにインスタンス単位の新規カテゴリのセグメンテーションを拡張する。
画像キャプションの助けを借りて, 字幕内の数千のオブジェクト名詞を活用して, 新規クラスの発見を目的とした, シンプルかつ効果的なフレームワークについて検討する。
事前学習されたキャプションモデルを採用するか,複雑なパイプラインを用いた大規模なキャプションデータセットを使用するかわりに,キャプションのグラウンド化とキャプション生成という2つの側面からエンドツーエンドなソリューションを提案する。
特に,マスクトランスフォーマーのベースラインに基づくcgg(joint caption grounding and generation)フレームワークを考案する。
このフレームワークには、明示的で暗黙的なマルチモーダルな特徴アライメントを実行する、新たなグラウンディング損失がある。
さらに、追加のキャプション監視を可能にする軽量キャプション生成ヘッドを設計する。
接地と生成は相互に補完し,新しいカテゴリーのセグメンテーション性能を著しく向上させる。
OVIS(Open Vocabulary Instance Segmentation)とOSPS(Open Set Panoptic Segmentation)の2つの設定でCOCOデータセットの広範な実験を行う。
その結果,従来のOVIS法よりもCGGフレームワークが優れていることが示され,新たな授業ではキャプションデータなしで6.8%mAPが向上した。
また,OSPSベンチマークにおける新しいクラスに対して,様々な設定で15%以上のPQ改善を実現する。
関連論文リスト
- USE: Universal Segment Embeddings for Open-Vocabulary Image Segmentation [33.11010205890195]
オープン語彙のイメージセグメンテーションにおける大きな課題は、これらのセグメンテーションをテキスト定義カテゴリに正確に分類することにある。
この課題に対処するために、Universal Segment Embedding(USE)フレームワークを紹介します。
本フレームワークは,1)大量のセグメントテキストペアを様々な粒度で効率的にキュレートするように設計されたデータパイプライン,2)テキスト定義のカテゴリに精度の高いセグメント分類を可能にする普遍的なセグメント埋め込みモデルからなる。
論文 参考訳(メタデータ) (2024-06-07T21:41:18Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Adaptively Clustering Neighbor Elements for Image-Text Generation [78.82346492527425]
我々はtextbfACF と呼ばれるトランスフォーマーに基づく新しい画像テキスト生成モデルを提案する。
ACFは、視覚パッチをオブジェクト領域と言語単語に適応的にクラスタリングし、暗黙的にオブジェクト・フレーズのアライメントを学習する。
実験の結果,ほとんどのSOTAキャプションやVQAモデルよりも優れたACFの有効性が示された。
論文 参考訳(メタデータ) (2023-01-05T08:37:36Z) - SegCLIP: Patch Aggregation with Learnable Centers for Open-Vocabulary
Semantic Segmentation [26.079055078561986]
オープン語彙セグメンテーションのためのCLIPベースのSegCLIPモデルを提案する。
主なアイデアは、テキストイメージペアのトレーニングを通じて、学習可能な中心をセマンティック領域に集めることである。
実験結果から,本モデルでは高いセグメンテーション精度が得られた。
論文 参考訳(メタデータ) (2022-11-27T12:38:52Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。