論文の概要: In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2408.04961v1
- Date: Fri, 9 Aug 2024 09:28:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 16:07:28.630788
- Title: In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation
- Title(参考訳): Open-Vocabulary Semantic Segmentation に対するLazy Visual Grounding の防御
- Authors: Dahyun Kang, Minsu Cho,
- Abstract要約: 我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 50.79940712523551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present lazy visual grounding, a two-stage approach of unsupervised object mask discovery followed by object grounding, for open-vocabulary semantic segmentation. Plenty of the previous art casts this task as pixel-to-text classification without object-level comprehension, leveraging the image-to-text classification capability of pretrained vision-and-language models. We argue that visual objects are distinguishable without the prior text information as segmentation is essentially a vision task. Lazy visual grounding first discovers object masks covering an image with iterative Normalized cuts and then later assigns text on the discovered objects in a late interaction manner. Our model requires no additional training yet shows great performance on five public datasets: Pascal VOC, Pascal Context, COCO-object, COCO-stuff, and ADE 20K. Especially, the visually appealing segmentation results demonstrate the model capability to localize objects precisely. Paper homepage: https://cvlab.postech.ac.kr/research/lazygrounding
- Abstract(参考訳): 開語彙的セマンティックセグメンテーションのための,非教師対象マスク発見の2段階的アプローチである遅延視覚グラウンド(lazy visual grounding)を提案する。
先行技術の多くは、このタスクを、事前訓練された視覚と言語モデルの画像とテキストの分類能力を活用するために、オブジェクトレベルの理解を伴わないピクセルからテキストへの分類として捉えている。
従来のテキスト情報をセグメント化せずに視覚オブジェクトを識別することは、本質的には視覚タスクである、と我々は主張する。
怠け者の視覚的グラウンドは、まず画像を覆うオブジェクトマスクを反復的正規化カットで発見し、その後、遅いインタラクションで検出されたオブジェクトのテキストを割り当てる。
私たちのモデルは、Pascal VOC、Pascal Context、COCO-object、COCO-stuff、ADE 20Kという5つのパブリックデータセットで、まだ追加のトレーニングを必要としていません。
特に、視覚的に魅力的なセグメンテーションの結果は、オブジェクトを正確にローカライズするモデル能力を示している。
ペーパーホームページ: https://cvlab.postech.ac.kr/research/lazygrounding
関連論文リスト
- Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Unsupervised Object Localization: Observing the Background to Discover
Objects [4.870509580034194]
本研究では,異なるアプローチを採り,その代わりに背景を探すことを提案する。
このようにして、健全なオブジェクトは、オブジェクトが何であるべきかを強く仮定することなく、副産物として現れます。
自己教師型パッチベース表現から抽出した粗い背景マスクを備えた1ドルconv1times1$のシンプルなモデルであるFOUNDを提案する。
論文 参考訳(メタデータ) (2022-12-15T13:43:11Z) - Learning Dense Object Descriptors from Multiple Views for Low-shot
Category Generalization [27.583517870047487]
本稿では、カテゴリやセマンティックなオブジェクト部分ラベルを使わずに、オブジェクトインスタンスの複数のビューからトレーニングできるDeep Object Patch rimis(DOPE)を提案する。
DOPEを訓練するために、物体の視界間の画素レベルの対応を得るために、スパースディープ、フォアグラウンドマスク、および既知のカメラへのアクセスを仮定する。
DOPEは, 局所的マッチングを用いて, 新規カテゴリーの低ショット分類に利用でき, 教師付き学習ベースラインや自己教師型学習ベースラインと競合し, 優れることがわかった。
論文 参考訳(メタデータ) (2022-11-28T04:31:53Z) - Learning Object-Language Alignments for Open-Vocabulary Object Detection [83.09560814244524]
画像とテキストのペアデータから直接学習する新しいオープン語彙オブジェクト検出フレームワークを提案する。
これにより、画像とテキストのペア上でオープンな語彙オブジェクト検出器を、よりシンプルで効果的な方法で訓練することが可能になります。
論文 参考訳(メタデータ) (2022-11-27T14:47:31Z) - Learning to Detect Every Thing in an Open World [139.78830329914135]
我々は、Learning to Detect Every Thing (LDET)と呼ぶ、シンプルながら驚くほど強力なデータ拡張とトレーニングスキームを提案する。
可視だがラベル付けされていない背景オブジェクトの隠蔽を避けるため、元の画像の小さな領域から採取した背景画像上に注釈付きオブジェクトを貼り付ける。
LDETは、オープンワールドのインスタンスセグメンテーションタスクにおいて、多くのデータセットに大きな改善をもたらす。
論文 参考訳(メタデータ) (2021-12-03T03:56:06Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Image Captioning with Visual Object Representations Grounded in the
Textual Modality [14.797241131469486]
テキストと視覚のモダリティ間の共有埋め込み空間の可能性を探る。
本稿では,キャプションシステムの単語埋め込み空間における表現を基礎として,現在の傾向とは逆のアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-19T12:21:38Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。