論文の概要: Open Vocabulary Semantic Scene Sketch Understanding
- arxiv url: http://arxiv.org/abs/2312.12463v2
- Date: Sat, 30 Mar 2024 11:35:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:35:39.269900
- Title: Open Vocabulary Semantic Scene Sketch Understanding
- Title(参考訳): Open Vocabulary Semantic Scene Sketch Understanding
- Authors: Ahmed Bourouis, Judith Ellen Fan, Yulia Gryaditskaya,
- Abstract要約: フリーハンドシーンスケッチの機械的理解における未探索だが基本的な視覚問題について検討する。
本研究では,意味的に認識可能な特徴空間を実現するスケッチエンコーダを導入し,その性能を意味的スケッチセグメンテーションタスクでテストすることで評価する。
提案手法は,セグメンテーション結果のゼロショットCLIP画素精度を37ポイント上回り,FS-COCOスケッチデータセットの精度が85.5%に達した。
- 参考スコア(独自算出の注目度): 5.638866331696071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the underexplored but fundamental vision problem of machine understanding of abstract freehand scene sketches. We introduce a sketch encoder that results in semantically-aware feature space, which we evaluate by testing its performance on a semantic sketch segmentation task. To train our model we rely only on the availability of bitmap sketches with their brief captions and do not require any pixel-level annotations. To obtain generalization to a large set of sketches and categories, we build on a vision transformer encoder pretrained with the CLIP model. We freeze the text encoder and perform visual-prompt tuning of the visual encoder branch while introducing a set of critical modifications. Firstly, we augment the classical key-query (k-q) self-attention blocks with value-value (v-v) self-attention blocks. Central to our model is a two-level hierarchical network design that enables efficient semantic disentanglement: The first level ensures holistic scene sketch encoding, and the second level focuses on individual categories. We, then, in the second level of the hierarchy, introduce a cross-attention between textual and visual branches. Our method outperforms zero-shot CLIP pixel accuracy of segmentation results by 37 points, reaching an accuracy of $85.5\%$ on the FS-COCO sketch dataset. Finally, we conduct a user study that allows us to identify further improvements needed over our method to reconcile machine and human understanding of scene sketches.
- Abstract(参考訳): 本研究では,抽象的なフリーハンドシーンスケッチの機械的理解における未探索だが基本的なビジョン問題について検討する。
本研究では,意味的に認識可能な特徴空間を実現するスケッチエンコーダを導入し,その性能を意味的スケッチセグメンテーションタスクでテストすることで評価する。
モデルのトレーニングには、短いキャプションでビットマップのスケッチが利用できることのみを頼りにし、ピクセルレベルのアノテーションを一切必要としません。
スケッチやカテゴリの集合を一般化するために、CLIPモデルで事前訓練されたビジョントランスフォーマーエンコーダを構築した。
我々は、テキストエンコーダを凍結し、視覚エンコーダブランチの視覚的プロンプトチューニングを行い、重要な修正を施した。
まず,従来のキークエリ(k-q)自己アテンションブロックを値値(v-v)自己アテンションブロックで拡張する。
我々のモデルの中心は、効率的なセマンティックな絡み合いを可能にする2階層の階層型ネットワーク設計である: 第一レベルは、全体論的シーンのスケッチエンコーディングを確実にし、第二レベルは、個々のカテゴリに焦点を当てる。
次に、階層の第2のレベルにおいて、テキストと視覚の分岐を相互に関連付けます。
提案手法は,セグメンテーション結果のゼロショットCLIP画素精度を37ポイント向上させ,FS-COCOスケッチデータセットの精度を85.5\%とした。
最後に,シーンスケッチの機械的理解と人間的理解を両立させるため,提案手法のさらなる改良をユーザスタディで確認する。
関連論文リスト
- Rethinking Prior Information Generation with CLIP for Few-Shot Segmentation [14.998239253285394]
我々は,視覚的先行表現を視覚テキストアライメント能力に置き換えて,より信頼性の高いガイダンスを取得することを提案する。
本研究では,本手法が明らかに向上し,新しい最先端性能に達することを示す。
論文 参考訳(メタデータ) (2024-05-14T09:28:25Z) - ContextSeg: Sketch Semantic Segmentation by Querying the Context with Attention [7.783971241874388]
本稿では、この問題を2段階に分けて扱うための、シンプルかつ高効率なアプローチであるContextSegについて述べる。
第1段階では、ストロークの形状と位置情報をよりよく符号化するために、オートエンコーダネットワークにおける余分な密度距離場を予測することを提案する。
第2段階では、全ストロークを単一のエンティティとして扱い、デフォルトのアテンション機構を備えた自動回帰変換器を用いて、同じ意味部分内でストロークのグループをラベル付けする。
論文 参考訳(メタデータ) (2023-11-28T10:53:55Z) - CLIP Brings Better Features to Visual Aesthetics Learners [12.0962117940694]
画像美学評価(IAA)は,主観的かつ高価なラベル付け手法により,このような手法の理想的な適用シナリオの1つである。
本研究は,テキストbfCLIPベースのテキストbfSemi-supervised textbfKnowledge textbfDistillationパラダイム,すなわちtextbftextitCSKDを提案する。
論文 参考訳(メタデータ) (2023-07-28T16:00:21Z) - What Can Human Sketches Do for Object Detection? [127.67444974452411]
スケッチは非常に表現力が高く、本質的に主観的かつきめ細かい視覚的手がかりを捉えている。
スケッチ可能なオブジェクト検出フレームワークは、 textityou sketch -- textit that zebra' に基づいて検出する。
スケッチベース画像検索(SBIR)のために構築された基礎モデル(例えばCLIP)と既存のスケッチモデルとの直感的な相乗効果を示す。
特に、まず、エンコーダモデルの両方のスケッチブランチで独立に実行し、高度に一般化可能なスケッチとフォトエンコーダを構築する。
論文 参考訳(メタデータ) (2023-03-27T12:33:23Z) - Abstracting Sketches through Simple Primitives [53.04827416243121]
人間は、オブジェクト情報を素早く通信する必要があるゲームにおいて、高いレベルの抽象化能力を示す。
本稿では,プリミティブをベースとしたスケッチ抽象化タスクを提案する。
我々のPrimitive-Matching Network(PMN)は、スケッチの解釈可能な抽象化を自己管理的に学習する。
論文 参考訳(メタデータ) (2022-07-27T14:32:39Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - FS-COCO: Towards Understanding of Freehand Sketches of Common Objects in
Context [112.07988211268612]
フリーハンドシーンスケッチの最初のデータセットであるFS-COCOを用いてスケッチ研究を進めた。
本データセットは,100名の非専門家による1点あたりの時空間情報付きフリーハンドシーンベクトルスケッチからなる。
フリーハンドシーンのスケッチやスケッチのキャプションからきめ細かい画像検索の問題が初めて研究された。
論文 参考訳(メタデータ) (2022-03-04T03:00:51Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - One Sketch for All: One-Shot Personalized Sketch Segmentation [84.45203849671003]
そこで本研究では,最初のワンショットパーソナライズドスケッチセグメンテーション手法を提案する。
我々は、同じカテゴリに属するすべてのスケッチを、特定の部分アノテーション付きの1つのスケッチでセグメント化することを目指している。
私たちは、例に埋め込まれた部分のセマンティクスを保存し、入力スタイルと抽象化に堅牢です。
論文 参考訳(メタデータ) (2021-12-20T20:10:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。