論文の概要: Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts
- arxiv url: http://arxiv.org/abs/2412.19917v1
- Date: Fri, 27 Dec 2024 20:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:44.058764
- Title: Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts
- Title(参考訳): Char-SAM: 文字レベルのビジュアルプロンプを持つシーンテキストセグメンテーションアノテータにセグメンテーションモデルを変換する
- Authors: Enze Xie, Jiaho Lyu, Daiqing Wu, Huawen Shen, Yu Zhou,
- Abstract要約: Char-SAMはSAMを、文字レベルのビジュアルプロンプトを備えた低コストセグメンテーションアノテータに変換するパイプラインである。
Char-SAMは、高品質なシーンテキストセグメンテーションアノテーションを自動生成する。
そのトレーニング不要な性質により、COCO-TextやMLT17といった現実世界のデータセットから高品質なシーンテキストセグメンテーションデータセットを生成することもできる。
- 参考スコア(独自算出の注目度): 12.444549174054988
- License:
- Abstract: The recent emergence of the Segment Anything Model (SAM) enables various domain-specific segmentation tasks to be tackled cost-effectively by using bounding boxes as prompts. However, in scene text segmentation, SAM can not achieve desirable performance. The word-level bounding box as prompts is too coarse for characters, while the character-level bounding box as prompts suffers from over-segmentation and under-segmentation issues. In this paper, we propose an automatic annotation pipeline named Char-SAM, that turns SAM into a low-cost segmentation annotator with a Character-level visual prompt. Specifically, leveraging some existing text detection datasets with word-level bounding box annotations, we first generate finer-grained character-level bounding box prompts using the Character Bounding-box Refinement CBR module. Next, we employ glyph information corresponding to text character categories as a new prompt in the Character Glyph Refinement (CGR) module to guide SAM in producing more accurate segmentation masks, addressing issues of over-segmentation and under-segmentation. These modules fully utilize the bbox-to-mask capability of SAM to generate high-quality text segmentation annotations automatically. Extensive experiments on TextSeg validate the effectiveness of Char-SAM. Its training-free nature also enables the generation of high-quality scene text segmentation datasets from real-world datasets like COCO-Text and MLT17.
- Abstract(参考訳): 最近のSAM(Segment Anything Model)の出現により、さまざまなドメイン固有のセグメンテーションタスクを、バウンディングボックスをプロンプトとして使用することで、費用対効果に対処することが可能になった。
しかし、シーンテキストセグメンテーションでは、SAMは望ましいパフォーマンスを達成できない。
プロンプトとしての単語レベルのバウンディングボックスは文字が大きすぎるが、プロンプトとしての文字レベルのバウンディングボックスは過剰なセグメンテーションとアンダーセグメンテーションの問題に悩まされる。
本稿では,Char-SAMという自動アノテーションパイプラインを提案し,SAMを文字レベルの視覚的プロンプトを備えた低コストセグメンテーションアノテータに変換する。
具体的には、既存のテキスト検出データセットと単語レベルのバウンディングボックスアノテーションを活用することで、まずキャラクタ境界ボックスRefinement CBRモジュールを使用して、よりきめ細かい文字レベルのバウンディングボックスプロンプトを生成する。
次に,文字のカテゴリに対応するグリフ情報をキャラクタ・グリフ・リファインメント(CGR)モジュールの新たなプロンプトとして使用し,より正確なセグメンテーションマスクの生成をSAMに誘導し,過剰なセグメンテーションと過小分割の問題に対処する。
これらのモジュールはSAMのbbox-to-mask機能を完全に利用して、高品質なテキストセグメンテーションアノテーションを自動的に生成する。
TextSegの大規模な実験はChar-SAMの有効性を検証する。
そのトレーニング不要な性質により、COCO-TextやMLT17といった現実世界のデータセットから高品質なシーンテキストセグメンテーションデータセットを生成することもできる。
関連論文リスト
- Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt [10.17947324152468]
リージョンプロンプトチューニング手法は、領域テキストプロンプトを個々の文字に分解し、視覚特徴マップを領域視覚トークンに分割する。
これにより、文字はトークンの局所的な特徴と一致し、詳細な特徴やきめ細かいテキストが省略されるのを避けることができる。
提案手法は,画像テキストプロセスから得られた一般的なスコアマップと,文字とトークンのマッチングから得られた領域スコアマップを組み合わせる。
論文 参考訳(メタデータ) (2024-09-20T15:24:26Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation [97.90960864892966]
本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ピクセルレベルのテキスト、単語、テキスト行、段落を含む4つの階層にまたがるセグメンテーションが優れている。
HierTextのジョイント階層検出とレイアウト解析の以前のスペシャリストと比較して、Hi-SAMは大幅に改善されている。
論文 参考訳(メタデータ) (2024-01-31T15:10:29Z) - Learning to Prompt Segment Anything Models [55.805816693815835]
Segment Anything Models (SAM)は、何かをセグメント化する学習において大きな可能性を実証している。
SAMは、空間的プロンプト(例えば、点)と意味的プロンプト(例えば、テキスト)を含む2種類のプロンプトで動作する。
より優れたSAMのための効果的な意味と空間的プロンプトを学習する空間意味的プロンプト学習(SSPrompt)を提案する。
論文 参考訳(メタデータ) (2024-01-09T16:24:25Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Scalable Mask Annotation for Video Text Spotting [86.72547285886183]
ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。
SAMTextを使って大規模なデータセットSAMText-9Mを作成しました。
論文 参考訳(メタデータ) (2023-05-02T14:18:45Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - MANGO: A Mask Attention Guided One-Stage Scene Text Spotter [41.66707532607276]
MANGOという,新しいMask AttentioN Guided One-stage text Spotting frameworkを提案する。
提案手法は,正規テキストスポッティングベンチマークと不規則テキストスポッティングベンチマークの両方において,競争力と新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2020-12-08T10:47:49Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。