論文の概要: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text
Segmentation
- arxiv url: http://arxiv.org/abs/2401.17904v1
- Date: Wed, 31 Jan 2024 15:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:01:45.200306
- Title: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text
Segmentation
- Title(参考訳): hi-sam: 階層型テキストセグメンテーションのためのsegment anythingモデル
- Authors: Maoyuan Ye, Jing Zhang, Juhua Liu, Chenyu Liu, Baocai Yin, Cong Liu,
Bo Du, Dacheng Tao
- Abstract要約: 本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ストローク、ワード、テキストライン、段落を含む4つの階層にまたがるテキストセグメンテーションを抜粋する。
- 参考スコア(独自算出の注目度): 102.1265956779271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM), a profound vision foundation model
pre-trained on a large-scale dataset, breaks the boundaries of general
segmentation and sparks various downstream applications. This paper introduces
Hi-SAM, a unified model leveraging SAM for hierarchical text segmentation.
Hi-SAM excels in text segmentation across four hierarchies, including stroke,
word, text-line, and paragraph, while realizing layout analysis as well.
Specifically, we first turn SAM into a high-quality text stroke segmentation
(TSS) model through a parameter-efficient fine-tuning approach. We use this TSS
model to iteratively generate the text stroke labels in a semi-automatical
manner, unifying labels across the four text hierarchies in the HierText
dataset. Subsequently, with these complete labels, we launch the end-to-end
trainable Hi-SAM based on the TSS architecture with a customized hierarchical
mask decoder. During inference, Hi-SAM offers both automatic mask generation
(AMG) mode and promptable segmentation mode. In terms of the AMG mode, Hi-SAM
segments text stroke foreground masks initially, then samples foreground points
for hierarchical text mask generation and achieves layout analysis in passing.
As for the promptable mode, Hi-SAM provides word, text-line, and paragraph
masks with a single point click. Experimental results show the state-of-the-art
performance of our TSS model: 84.86% fgIOU on Total-Text and 88.96% fgIOU on
TextSeg for text stroke segmentation. Moreover, compared to the previous
specialist for joint hierarchical detection and layout analysis on HierText,
Hi-SAM achieves significant improvements: 4.73% PQ and 5.39% F1 on the
text-line level, 5.49% PQ and 7.39% F1 on the paragraph level layout analysis,
requiring 20x fewer training epochs. The code is available at
https://github.com/ymy-k/Hi-SAM.
- Abstract(参考訳): segment anything model(sam)は、大規模なデータセットで事前トレーニングされたdeep vision foundationモデルで、一般的なセグメンテーションの境界を破り、さまざまな下流アプリケーションを引き起こす。
本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ストローク、ワード、テキストライン、段落を含む4つの階層のテキストセグメンテーションに優れ、レイアウト解析も実現している。
具体的には,SAMをパラメータ効率の良い微調整手法により,高品質なテキストストロークセグメンテーション(TSS)モデルに変換する。
このtssモデルを用いてテキストストロークラベルを半自動的な方法で反復的に生成し、hiertextデータセット内の4つのテキスト階層にまたがるラベルを統一する。
その後、これらの完全ラベルを用いて、カスタマイズされた階層マスクデコーダを備えたTSSアーキテクチャに基づいて、エンドツーエンドのトレーニング可能なHi-SAMをローンチする。
推論中、Hi-SAMは自動マスク生成(AMG)モードとプロンプト可能なセグメンテーションモードの両方を提供する。
amgモードでは、hi-samはテキストストロークの前景マスクを最初にセグメンテーションし、階層的なテキストマスク生成のための前景ポイントをサンプリングし、通過時のレイアウト解析を実現する。
プロンプト可能なモードについては、Hi-SAMはワンポイントクリックで単語、テキスト、段落のマスクを提供する。
実験の結果,テキストストロークセグメンテーションのためのテキストSegでは84.86% fgIOU,88.96% fgIOUであった。
さらに、HierTextで共同階層的検出とレイアウト分析を行う以前の専門家と比較して、Hi-SAMはテキストラインレベルで4.73%のPQと5.39%のF1、段落レベルのレイアウト分析で5.49%のPQと7.39%のF1、20倍のトレーニングエポックを必要とする。
コードはhttps://github.com/ymy-k/Hi-SAMで公開されている。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models [43.27699553774037]
Weakly-supervised Part (WPS) と WPS-SAM という手法を提案する。
WPS-SAMは画像から直接プロンプトトークンを抽出し、部分領域のピクセルレベルのセグメンテーションを実行するために設計されたエンドツーエンドフレームワークである。
実験により、事前訓練された基礎モデルに埋め込まれた豊富な知識を利用することで、WPS-SAMはピクセルレベルの強いアノテーションで訓練された他のセグメンテーションモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-07-14T09:31:21Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Scalable Mask Annotation for Video Text Spotting [86.72547285886183]
ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。
SAMTextを使って大規模なデータセットSAMText-9Mを作成しました。
論文 参考訳(メタデータ) (2023-05-02T14:18:45Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T01:44:10Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。