論文の概要: Class-Agnostic Visio-Temporal Scene Sketch Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2410.00266v1
- Date: Mon, 30 Sep 2024 22:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 06:46:17.049296
- Title: Class-Agnostic Visio-Temporal Scene Sketch Semantic Segmentation
- Title(参考訳): クラス非依存型Visio-Temporal Scene Sketch Semantic Segmentation
- Authors: Aleyna Kütük, Tevfik Metin Sezgin,
- Abstract要約: スケッチ・ツー・イメージ検索やシーン理解など,さまざまなアプリケーションにおいて,シーンスケッチのセマンティックセマンティックセグメンテーションが重要な課題である。
既存のスケッチセグメンテーション手法はスケッチをビットマップ画像として扱い、ストローク間の時間的順序が失われる。
シーンスケッチセマンティックセマンティックセグメンテーションのためのCAVT(Class-Agnostic-Temporal Network)を提案する。
- 参考スコア(独自算出の注目度): 0.9208007322096532
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene sketch semantic segmentation is a crucial task for various applications including sketch-to-image retrieval and scene understanding. Existing sketch segmentation methods treat sketches as bitmap images, leading to the loss of temporal order among strokes due to the shift from vector to image format. Moreover, these methods struggle to segment objects from categories absent in the training data. In this paper, we propose a Class-Agnostic Visio-Temporal Network (CAVT) for scene sketch semantic segmentation. CAVT employs a class-agnostic object detector to detect individual objects in a scene and groups the strokes of instances through its post-processing module. This is the first approach that performs segmentation at both the instance and stroke levels within scene sketches. Furthermore, there is a lack of free-hand scene sketch datasets with both instance and stroke-level class annotations. To fill this gap, we collected the largest Free-hand Instance- and Stroke-level Scene Sketch Dataset (FrISS) that contains 1K scene sketches and covers 403 object classes with dense annotations. Extensive experiments on FrISS and other datasets demonstrate the superior performance of our method over state-of-the-art scene sketch segmentation models. The code and dataset will be made public after acceptance.
- Abstract(参考訳): スケッチ・ツー・イメージ検索やシーン理解など,さまざまなアプリケーションにおいて,シーンスケッチのセマンティックセマンティックセグメンテーションが重要な課題である。
既存のスケッチセグメンテーション手法はスケッチをビットマップ画像として扱い、ベクターからイメージフォーマットへのシフトによりストローク間の時間的順序が失われる。
さらに、これらの手法は、トレーニングデータに存在しないカテゴリからオブジェクトを分割するのに苦労する。
本稿では,シーンスケッチセマンティックセマンティックセグメンテーションのためのクラス非依存型Vasio-Temporal Network (CAVT)を提案する。
CAVTはクラスに依存しないオブジェクト検出器を使用してシーン内の個々のオブジェクトを検出し、後処理モジュールを通じてインスタンスのストロークをグループ化する。
これは、シーンスケッチ内のインスタンスレベルとストロークレベルのセグメンテーションを実行する最初のアプローチである。
さらに、インスタンスレベルのアノテーションとストロークレベルのアノテーションを使った、フリーハンドのシーンスケッチデータセットが欠如している。
このギャップを埋めるために、我々は最大規模のフリーハンドインスタンスとストロークレベルのScene Sketch Dataset(FrISS)を収集しました。
FrISSや他のデータセットに対する大規模な実験は、最先端のシーンスケッチセグメンテーションモデルよりも優れた性能を示す。
コードとデータセットは受理後に公開される。
関連論文リスト
- Co-Segmentation without any Pixel-level Supervision with Application to Large-Scale Sketch Classification [3.3104978705632777]
画像の集合における共通物体の画素レベルの局所化という,オブジェクトの分離のための新しい手法を提案する。
この方法は、同じレベルの監督で訓練された方法のうち、最先端のパフォーマンスを達成する。
大規模スケッチ認識の課題において,提案手法の利点をさらに示す。
論文 参考訳(メタデータ) (2024-10-17T14:16:45Z) - Open Vocabulary Semantic Scene Sketch Understanding [5.638866331696071]
フリーハンドシーンスケッチの機械的理解における未探索だが基本的な視覚問題について検討する。
本研究では,意味的に認識可能な特徴空間を実現するスケッチエンコーダを導入し,その性能を意味的スケッチセグメンテーションタスクでテストすることで評価する。
提案手法は,セグメンテーション結果のゼロショットCLIP画素精度を37ポイント上回り,FS-COCOスケッチデータセットの精度が85.5%に達した。
論文 参考訳(メタデータ) (2023-12-18T19:02:07Z) - Sketch-based Video Object Segmentation: Benchmark and Analysis [55.79497833614397]
本稿では,スケッチベースのビデオオブジェクトセグメンテーション,関連するベンチマーク,強力なベースラインについて紹介する。
私たちのベンチマークには、3つのデータセット、Sketch-DAVIS16、Sketch-DAVIS17、Sketch-YouTube-VOSが含まれています。
実験の結果、スケッチは、フォトマスク、言語、スクリブルなど、他の参照よりも効果的であるが、アノテーション効率が高いことが示された。
論文 参考訳(メタデータ) (2023-11-13T11:53:49Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in
Context [112.07988211268612]
フリーハンドシーンスケッチの最初のデータセットであるFS-COCOを用いてスケッチ研究を進めた。
本データセットは,100名の非専門家による1点あたりの時空間情報付きフリーハンドシーンベクトルスケッチからなる。
フリーハンドシーンのスケッチやスケッチのキャプションからきめ細かい画像検索の問題が初めて研究された。
論文 参考訳(メタデータ) (2022-03-04T03:00:51Z) - One Sketch for All: One-Shot Personalized Sketch Segmentation [84.45203849671003]
そこで本研究では,最初のワンショットパーソナライズドスケッチセグメンテーション手法を提案する。
我々は、同じカテゴリに属するすべてのスケッチを、特定の部分アノテーション付きの1つのスケッチでセグメント化することを目指している。
私たちは、例に埋め込まれた部分のセマンティクスを保存し、入力スタイルと抽象化に堅牢です。
論文 参考訳(メタデータ) (2021-12-20T20:10:44Z) - Learning Panoptic Segmentation from Instance Contours [9.347742071428918]
Panopticpixel は、背景 (stuff) とオブジェクト (things) のインスタンスをピクセルレベルで理解することを目的としている。
セマンティックセグメンテーション(レベル分類)とインスタンスセグメンテーションの別々のタスクを組み合わせて、単一の統合されたシーン理解タスクを構築する。
セマンティックセグメンテーションとインスタンス輪郭からインスタンスセグメンテーションを学習する完全畳み込みニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-16T03:05:48Z) - DyStaB: Unsupervised Object Segmentation via Dynamic-Static
Bootstrapping [72.84991726271024]
我々は,コヒーレントなシーン全体を移動しているように見えるシーンの画像の一部を検出し,分割するための教師なしの手法について述べる。
提案手法はまず,セグメント間の相互情報を最小化することにより,運動場を分割する。
セグメントを使用してオブジェクトモデルを学習し、静的なイメージの検出に使用することができる。
論文 参考訳(メタデータ) (2020-08-16T22:05:13Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。