論文の概要: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation
- arxiv url: http://arxiv.org/abs/2401.17904v2
- Date: Fri, 08 Nov 2024 10:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:24.932389
- Title: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation
- Title(参考訳): Hi-SAM:階層的なテキストセグメンテーションのためのセグメンテーションモデル
- Authors: Maoyuan Ye, Jing Zhang, Juhua Liu, Chenyu Liu, Baocai Yin, Cong Liu, Bo Du, Dacheng Tao,
- Abstract要約: 本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ピクセルレベルのテキスト、単語、テキスト行、段落を含む4つの階層にまたがるセグメンテーションが優れている。
HierTextのジョイント階層検出とレイアウト解析の以前のスペシャリストと比較して、Hi-SAMは大幅に改善されている。
- 参考スコア(独自算出の注目度): 97.90960864892966
- License:
- Abstract: The Segment Anything Model (SAM), a profound vision foundation model pretrained on a large-scale dataset, breaks the boundaries of general segmentation and sparks various downstream applications. This paper introduces Hi-SAM, a unified model leveraging SAM for hierarchical text segmentation. Hi-SAM excels in segmentation across four hierarchies, including pixel-level text, word, text-line, and paragraph, while realizing layout analysis as well. Specifically, we first turn SAM into a high-quality pixel-level text segmentation (TS) model through a parameter-efficient fine-tuning approach. We use this TS model to iteratively generate the pixel-level text labels in a semi-automatical manner, unifying labels across the four text hierarchies in the HierText dataset. Subsequently, with these complete labels, we launch the end-to-end trainable Hi-SAM based on the TS architecture with a customized hierarchical mask decoder. During inference, Hi-SAM offers both automatic mask generation (AMG) mode and promptable segmentation (PS) mode. In the AMG mode, Hi-SAM segments pixel-level text foreground masks initially, then samples foreground points for hierarchical text mask generation and achieves layout analysis in passing. As for the PS mode, Hi-SAM provides word, text-line, and paragraph masks with a single point click. Experimental results show the state-of-the-art performance of our TS model: 84.86% fgIOU on Total-Text and 88.96% fgIOU on TextSeg for pixel-level text segmentation. Moreover, compared to the previous specialist for joint hierarchical detection and layout analysis on HierText, Hi-SAM achieves significant improvements: 4.73% PQ and 5.39% F1 on the text-line level, 5.49% PQ and 7.39% F1 on the paragraph level layout analysis, requiring $20\times$ fewer training epochs. The code is available at https://github.com/ymy-k/Hi-SAM.
- Abstract(参考訳): Segment Anything Model (SAM)は、大規模なデータセットで事前訓練された深いビジョン基盤モデルであり、一般的なセグメンテーションの境界を破り、さまざまなダウンストリームアプリケーションに火花を付ける。
本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ピクセルレベルのテキスト、単語、テキスト行、段落を含む4つの階層にまたがるセグメンテーションに優れ、レイアウト解析も実現している。
具体的には、SAMをパラメータ効率の良い微調整手法により、高品質なピクセルレベルのテキストセグメンテーション(TS)モデルに変換する。
我々は、このTSモデルを用いて、半自動でピクセルレベルのテキストラベルを反復的に生成し、HierTextデータセットの4つのテキスト階層にラベルを統一する。
その後、これらの完全ラベルを用いて、カスタマイズされた階層マスクデコーダを備えたTSアーキテクチャに基づいて、エンドツーエンドのトレーニング可能なHi-SAMをローンチする。
推論中、Hi-SAMは自動マスク生成(AMG)モードとプロンプト可能なセグメンテーション(PS)モードの両方を提供する。
AMGモードでは、Hi-SAMはまずピクセルレベルのテキストフォアグラウンドマスクを分割し、その後、階層的なテキストマスク生成のためのフォアグラウンドポイントをサンプリングし、通過時のレイアウト解析を行う。
PSモードでは、Hi-SAMはワード、テキスト、段落のマスクをワンポイントクリックで提供する。
実験結果から,テキスト全文では84.86% fgIOU,テキストセグメンテーションでは88.96% fgIOU,ピクセルレベルのテキストセグメンテーションでは88.96% fgIOUであった。
さらに、HierTextで共同階層検出とレイアウト分析を行う以前のスペシャリストと比較して、Hi-SAMは、テキストラインレベルで4.73%のPQと5.39%のF1、段落レベルのレイアウト分析で5.49%のPQと7.39%のF1という大幅な改善を実現している。
コードはhttps://github.com/ymy-k/Hi-SAMで公開されている。
関連論文リスト
- Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models [43.27699553774037]
Weakly-supervised Part (WPS) と WPS-SAM という手法を提案する。
WPS-SAMは画像から直接プロンプトトークンを抽出し、部分領域のピクセルレベルのセグメンテーションを実行するために設計されたエンドツーエンドフレームワークである。
実験により、事前訓練された基礎モデルに埋め込まれた豊富な知識を利用することで、WPS-SAMはピクセルレベルの強いアノテーションで訓練された他のセグメンテーションモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-07-14T09:31:21Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - Scalable Mask Annotation for Video Text Spotting [86.72547285886183]
ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。
SAMTextを使って大規模なデータセットSAMText-9Mを作成しました。
論文 参考訳(メタデータ) (2023-05-02T14:18:45Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T01:44:10Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。