論文の概要: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation
- arxiv url: http://arxiv.org/abs/2401.17904v2
- Date: Fri, 08 Nov 2024 10:45:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:52:24.932389
- Title: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation
- Title(参考訳): Hi-SAM:階層的なテキストセグメンテーションのためのセグメンテーションモデル
- Authors: Maoyuan Ye, Jing Zhang, Juhua Liu, Chenyu Liu, Baocai Yin, Cong Liu, Bo Du, Dacheng Tao,
- Abstract要約: 本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ピクセルレベルのテキスト、単語、テキスト行、段落を含む4つの階層にまたがるセグメンテーションが優れている。
HierTextのジョイント階層検出とレイアウト解析の以前のスペシャリストと比較して、Hi-SAMは大幅に改善されている。
- 参考スコア(独自算出の注目度): 97.90960864892966
- License:
- Abstract: The Segment Anything Model (SAM), a profound vision foundation model pretrained on a large-scale dataset, breaks the boundaries of general segmentation and sparks various downstream applications. This paper introduces Hi-SAM, a unified model leveraging SAM for hierarchical text segmentation. Hi-SAM excels in segmentation across four hierarchies, including pixel-level text, word, text-line, and paragraph, while realizing layout analysis as well. Specifically, we first turn SAM into a high-quality pixel-level text segmentation (TS) model through a parameter-efficient fine-tuning approach. We use this TS model to iteratively generate the pixel-level text labels in a semi-automatical manner, unifying labels across the four text hierarchies in the HierText dataset. Subsequently, with these complete labels, we launch the end-to-end trainable Hi-SAM based on the TS architecture with a customized hierarchical mask decoder. During inference, Hi-SAM offers both automatic mask generation (AMG) mode and promptable segmentation (PS) mode. In the AMG mode, Hi-SAM segments pixel-level text foreground masks initially, then samples foreground points for hierarchical text mask generation and achieves layout analysis in passing. As for the PS mode, Hi-SAM provides word, text-line, and paragraph masks with a single point click. Experimental results show the state-of-the-art performance of our TS model: 84.86% fgIOU on Total-Text and 88.96% fgIOU on TextSeg for pixel-level text segmentation. Moreover, compared to the previous specialist for joint hierarchical detection and layout analysis on HierText, Hi-SAM achieves significant improvements: 4.73% PQ and 5.39% F1 on the text-line level, 5.49% PQ and 7.39% F1 on the paragraph level layout analysis, requiring $20\times$ fewer training epochs. The code is available at https://github.com/ymy-k/Hi-SAM.
- Abstract(参考訳): Segment Anything Model (SAM)は、大規模なデータセットで事前訓練された深いビジョン基盤モデルであり、一般的なセグメンテーションの境界を破り、さまざまなダウンストリームアプリケーションに火花を付ける。
本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。
Hi-SAMは、ピクセルレベルのテキスト、単語、テキスト行、段落を含む4つの階層にまたがるセグメンテーションに優れ、レイアウト解析も実現している。
具体的には、SAMをパラメータ効率の良い微調整手法により、高品質なピクセルレベルのテキストセグメンテーション(TS)モデルに変換する。
我々は、このTSモデルを用いて、半自動でピクセルレベルのテキストラベルを反復的に生成し、HierTextデータセットの4つのテキスト階層にラベルを統一する。
その後、これらの完全ラベルを用いて、カスタマイズされた階層マスクデコーダを備えたTSアーキテクチャに基づいて、エンドツーエンドのトレーニング可能なHi-SAMをローンチする。
推論中、Hi-SAMは自動マスク生成(AMG)モードとプロンプト可能なセグメンテーション(PS)モードの両方を提供する。
AMGモードでは、Hi-SAMはまずピクセルレベルのテキストフォアグラウンドマスクを分割し、その後、階層的なテキストマスク生成のためのフォアグラウンドポイントをサンプリングし、通過時のレイアウト解析を行う。
PSモードでは、Hi-SAMはワード、テキスト、段落のマスクをワンポイントクリックで提供する。
実験結果から,テキスト全文では84.86% fgIOU,テキストセグメンテーションでは88.96% fgIOU,ピクセルレベルのテキストセグメンテーションでは88.96% fgIOUであった。
さらに、HierTextで共同階層検出とレイアウト分析を行う以前のスペシャリストと比較して、Hi-SAMは、テキストラインレベルで4.73%のPQと5.39%のF1、段落レベルのレイアウト分析で5.49%のPQと7.39%のF1という大幅な改善を実現している。
コードはhttps://github.com/ymy-k/Hi-SAMで公開されている。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。
本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。
実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文 参考訳(メタデータ) (2024-07-23T17:47:25Z) - Scalable Mask Annotation for Video Text Spotting [86.72547285886183]
ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。
SAMTextを使って大規模なデータセットSAMText-9Mを作成しました。
論文 参考訳(メタデータ) (2023-05-02T14:18:45Z) - TextDCT: Arbitrary-Shaped Text Detection via Discrete Cosine Transform
Mask [19.269070203448187]
任意形状のシーンテキスト検出は、フォント、サイズ、色、方向のさまざまな変更があるため、難しい作業である。
本研究では,テキストマスクをコンパクトなベクトルとして符号化する離散コサイン変換(DCT)を採用した,新しい軽量アンカーフリーテキスト検出フレームワークTextDCTを提案する。
TextDCTは、毎秒17.2フレームで85.1、CTW1500の15.1FPSで84.9、トータルテキストデータセットで84.9のF測定を実現している。
論文 参考訳(メタデータ) (2022-06-27T15:42:25Z) - DAN: a Segmentation-free Document Attention Network for Handwritten
Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。
このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。
ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文 参考訳(メタデータ) (2022-03-23T08:40:42Z) - All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T01:44:10Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。