論文の概要: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text
Segmentation
- arxiv url: http://arxiv.org/abs/2401.17904v1
- Date: Wed, 31 Jan 2024 15:10:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 14:01:45.200306
- Title: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text
Segmentation
- Title(参考訳): hi-sam: 階層型テキストセグメンテーションのためのsegment anythingモデル
- Authors: Maoyuan Ye, Jing Zhang, Juhua Liu, Chenyu Liu, Baocai Yin, Cong Liu,
Bo Du, Dacheng Tao
- Abstract要約: 本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ストローク、ワード、テキストライン、段落を含む4つの階層にまたがるテキストセグメンテーションを抜粋する。
- 参考スコア(独自算出の注目度): 102.1265956779271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Segment Anything Model (SAM), a profound vision foundation model
pre-trained on a large-scale dataset, breaks the boundaries of general
segmentation and sparks various downstream applications. This paper introduces
Hi-SAM, a unified model leveraging SAM for hierarchical text segmentation.
Hi-SAM excels in text segmentation across four hierarchies, including stroke,
word, text-line, and paragraph, while realizing layout analysis as well.
Specifically, we first turn SAM into a high-quality text stroke segmentation
(TSS) model through a parameter-efficient fine-tuning approach. We use this TSS
model to iteratively generate the text stroke labels in a semi-automatical
manner, unifying labels across the four text hierarchies in the HierText
dataset. Subsequently, with these complete labels, we launch the end-to-end
trainable Hi-SAM based on the TSS architecture with a customized hierarchical
mask decoder. During inference, Hi-SAM offers both automatic mask generation
(AMG) mode and promptable segmentation mode. In terms of the AMG mode, Hi-SAM
segments text stroke foreground masks initially, then samples foreground points
for hierarchical text mask generation and achieves layout analysis in passing.
As for the promptable mode, Hi-SAM provides word, text-line, and paragraph
masks with a single point click. Experimental results show the state-of-the-art
performance of our TSS model: 84.86% fgIOU on Total-Text and 88.96% fgIOU on
TextSeg for text stroke segmentation. Moreover, compared to the previous
specialist for joint hierarchical detection and layout analysis on HierText,
Hi-SAM achieves significant improvements: 4.73% PQ and 5.39% F1 on the
text-line level, 5.49% PQ and 7.39% F1 on the paragraph level layout analysis,
requiring 20x fewer training epochs. The code is available at
https://github.com/ymy-k/Hi-SAM.
- Abstract(参考訳): segment anything model(sam)は、大規模なデータセットで事前トレーニングされたdeep vision foundationモデルで、一般的なセグメンテーションの境界を破り、さまざまな下流アプリケーションを引き起こす。
本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ストローク、ワード、テキストライン、段落を含む4つの階層のテキストセグメンテーションに優れ、レイアウト解析も実現している。
具体的には,SAMをパラメータ効率の良い微調整手法により,高品質なテキストストロークセグメンテーション(TSS)モデルに変換する。
このtssモデルを用いてテキストストロークラベルを半自動的な方法で反復的に生成し、hiertextデータセット内の4つのテキスト階層にまたがるラベルを統一する。
その後、これらの完全ラベルを用いて、カスタマイズされた階層マスクデコーダを備えたTSSアーキテクチャに基づいて、エンドツーエンドのトレーニング可能なHi-SAMをローンチする。
推論中、Hi-SAMは自動マスク生成(AMG)モードとプロンプト可能なセグメンテーションモードの両方を提供する。
amgモードでは、hi-samはテキストストロークの前景マスクを最初にセグメンテーションし、階層的なテキストマスク生成のための前景ポイントをサンプリングし、通過時のレイアウト解析を実現する。
プロンプト可能なモードについては、Hi-SAMはワンポイントクリックで単語、テキスト、段落のマスクを提供する。
実験の結果,テキストストロークセグメンテーションのためのテキストSegでは84.86% fgIOU,88.96% fgIOUであった。
さらに、HierTextで共同階層的検出とレイアウト分析を行う以前の専門家と比較して、Hi-SAMはテキストラインレベルで4.73%のPQと5.39%のF1、段落レベルのレイアウト分析で5.49%のPQと7.39%のF1、20倍のトレーニングエポックを必要とする。
コードはhttps://github.com/ymy-k/Hi-SAMで公開されている。
関連論文リスト
- PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Scalable Mask Annotation for Video Text Spotting [86.72547285886183]
ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。
SAMTextを使って大規模なデータセットSAMText-9Mを作成しました。
論文 参考訳(メタデータ) (2023-05-02T14:18:45Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T01:44:10Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。