Fugu-MT 論文翻訳(概要): Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation

論文の概要: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation

arxiv url: http://arxiv.org/abs/2401.17904v1
Date: Wed, 31 Jan 2024 15:10:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 14:01:45.200306
Title: Hi-SAM: Marrying Segment Anything Model for Hierarchical Text Segmentation
Title（参考訳）: hi-sam: 階層型テキストセグメンテーションのためのsegment anythingモデル
Authors: Maoyuan Ye, Jing Zhang, Juhua Liu, Chenyu Liu, Baocai Yin, Cong Liu, Bo Du, Dacheng Tao
Abstract要約: 本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。 Hi-SAMは、ストローク、ワード、テキストライン、段落を含む4つの階層にまたがるテキストセグメンテーションを抜粋する。
参考スコア（独自算出の注目度）: 102.1265956779271
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Segment Anything Model (SAM), a profound vision foundation model pre-trained on a large-scale dataset, breaks the boundaries of general segmentation and sparks various downstream applications. This paper introduces Hi-SAM, a unified model leveraging SAM for hierarchical text segmentation. Hi-SAM excels in text segmentation across four hierarchies, including stroke, word, text-line, and paragraph, while realizing layout analysis as well. Specifically, we first turn SAM into a high-quality text stroke segmentation (TSS) model through a parameter-efficient fine-tuning approach. We use this TSS model to iteratively generate the text stroke labels in a semi-automatical manner, unifying labels across the four text hierarchies in the HierText dataset. Subsequently, with these complete labels, we launch the end-to-end trainable Hi-SAM based on the TSS architecture with a customized hierarchical mask decoder. During inference, Hi-SAM offers both automatic mask generation (AMG) mode and promptable segmentation mode. In terms of the AMG mode, Hi-SAM segments text stroke foreground masks initially, then samples foreground points for hierarchical text mask generation and achieves layout analysis in passing. As for the promptable mode, Hi-SAM provides word, text-line, and paragraph masks with a single point click. Experimental results show the state-of-the-art performance of our TSS model: 84.86% fgIOU on Total-Text and 88.96% fgIOU on TextSeg for text stroke segmentation. Moreover, compared to the previous specialist for joint hierarchical detection and layout analysis on HierText, Hi-SAM achieves significant improvements: 4.73% PQ and 5.39% F1 on the text-line level, 5.49% PQ and 7.39% F1 on the paragraph level layout analysis, requiring 20x fewer training epochs. The code is available at https://github.com/ymy-k/Hi-SAM.
Abstract（参考訳）: segment anything model(sam)は、大規模なデータセットで事前トレーニングされたdeep vision foundationモデルで、一般的なセグメンテーションの境界を破り、さまざまな下流アプリケーションを引き起こす。本稿では,階層的テキストセグメンテーションにSAMを活用する統一モデルであるHi-SAMを紹介する。 Hi-SAMは、ストローク、ワード、テキストライン、段落を含む4つの階層のテキストセグメンテーションに優れ、レイアウト解析も実現している。具体的には,SAMをパラメータ効率の良い微調整手法により,高品質なテキストストロークセグメンテーション(TSS)モデルに変換する。このtssモデルを用いてテキストストロークラベルを半自動的な方法で反復的に生成し、hiertextデータセット内の4つのテキスト階層にまたがるラベルを統一する。その後、これらの完全ラベルを用いて、カスタマイズされた階層マスクデコーダを備えたTSSアーキテクチャに基づいて、エンドツーエンドのトレーニング可能なHi-SAMをローンチする。推論中、Hi-SAMは自動マスク生成(AMG)モードとプロンプト可能なセグメンテーションモードの両方を提供する。 amgモードでは、hi-samはテキストストロークの前景マスクを最初にセグメンテーションし、階層的なテキストマスク生成のための前景ポイントをサンプリングし、通過時のレイアウト解析を実現する。プロンプト可能なモードについては、Hi-SAMはワンポイントクリックで単語、テキスト、段落のマスクを提供する。実験の結果,テキストストロークセグメンテーションのためのテキストSegでは84.86% fgIOU,88.96% fgIOUであった。さらに、HierTextで共同階層的検出とレイアウト分析を行う以前の専門家と比較して、Hi-SAMはテキストラインレベルで4.73%のPQと5.39%のF1、段落レベルのレイアウト分析で5.49%のPQと7.39%のF1、20倍のトレーニングエポックを必要とする。コードはhttps://github.com/ymy-k/Hi-SAMで公開されている。

関連論文リスト

SAM-PTx: Text-Guided Fine-Tuning of SAM with Parameter-Efficient, Parallel-Text Adapters [0.5755004576310334]
本稿では,冷凍CLIP由来のテキスト埋め込みをクラスレベルのセマンティックガイダンスとして用いたSAM-PTxを提案する。具体的には,SAMのイメージにテキスト埋め込みを注入し,セマンティクスによるセグメンテーションを可能にするParallel-Textという軽量アダプタを提案する。固定テキスト埋め込みを入力として組み込むことで、純粋に空間的なプロンプトベースラインよりもセグメンテーション性能が向上することを示す。
論文参考訳（メタデータ） (2025-07-31T23:26:39Z)
MSTAR: Box-free Multi-query Scene Text Retrieval with Attention Recycling [58.251621637466904]
Muti-query Scene Text Search with Attention recycling (MSTAR) は、シーンテキスト検索のためのボックスフリーアプローチである。プログレッシブ・ビジョンの埋め込みを取り入れ、テキストのマルチグラデーション表現を動的にキャプチャする。 7つの公開データセットとMQTRデータセットにまたがって,我々の手法の優位性を実証した。
論文参考訳（メタデータ） (2025-06-12T11:54:13Z)
Vision and Language Reference Prompt into SAM for Few-shot Segmentation [1.9458156037869137]
Segment Anything Model (SAM)は、柔軟なプロンプトで強力なゼロショット機能を実現する大規模なセグメンテーションモデルである。注記された参照イメージをSAMへのプロンプトとして入力し、ユーザが提供するプロンプトなしでターゲットイメージ内の特定のオブジェクトをセグメント化することで、これらの問題に対処する。本稿では,参照画像の視覚情報とテキストラベルのセマンティック情報を利用する,新しい数ショットセグメンテーションモデルであるVision and Language Reference Prompt to SAMを提案する。
論文参考訳（メタデータ） (2025-02-02T08:40:14Z)
Char-SAM: Turning Segment Anything Model into Scene Text Segmentation Annotator with Character-level Visual Prompts [12.444549174054988]
Char-SAMはSAMを、文字レベルのビジュアルプロンプトを備えた低コストセグメンテーションアノテータに変換するパイプラインである。 Char-SAMは、高品質なシーンテキストセグメンテーションアノテーションを自動生成する。そのトレーニング不要な性質により、COCO-TextやMLT17といった現実世界のデータセットから高品質なシーンテキストセグメンテーションデータセットを生成することもできる。
論文参考訳（メタデータ） (2024-12-27T20:33:39Z)
Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。 UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。 UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文参考訳（メタデータ） (2024-09-23T19:05:50Z)
SAM-CP: Marrying SAM with Composable Prompts for Versatile Segmentation [88.80792308991867]
Segment Anything Model (SAM)は、イメージピクセルをパッチにグループ化する機能を示しているが、セグメンテーションにそれを適用することは依然として大きな課題に直面している。本稿では,SAM-CPを提案する。SAM-CPはSAM以外の2種類の構成可能なプロンプトを確立し,多目的セグメンテーションのために構成する単純な手法である。実験により、SAM-CPはオープンドメインとクローズドドメインの両方においてセマンティック、例、およびパノプティックセグメンテーションを達成することが示された。
論文参考訳（メタデータ） (2024-07-23T17:47:25Z)
WPS-SAM: Towards Weakly-Supervised Part Segmentation with Foundation Models [43.27699553774037]
Weakly-supervised Part (WPS) と WPS-SAM という手法を提案する。 WPS-SAMは画像から直接プロンプトトークンを抽出し、部分領域のピクセルレベルのセグメンテーションを実行するために設計されたエンドツーエンドフレームワークである。実験により、事前訓練された基礎モデルに埋め込まれた豊富な知識を利用することで、WPS-SAMはピクセルレベルの強いアノテーションで訓練された他のセグメンテーションモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-07-14T09:31:21Z)
PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-14T17:55:03Z)
Scalable Mask Annotation for Video Text Spotting [86.72547285886183]
ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。 SAMTextを使って大規模なデータセットSAMText-9Mを作成しました。
論文参考訳（メタデータ） (2023-05-02T14:18:45Z)
DAN: a Segmentation-free Document Attention Network for Handwritten Document Recognition [1.7875811547963403]
手書き文書認識のためのエンドツーエンドセグメンテーションフリーアーキテクチャを提案する。このモデルはXMLのような方法で開始と終了のタグを使ってテキスト部品にラベルを付けるように訓練されている。ページレベルでのREADデータセットと、CERの3.53%と3.69%の2ページレベルの競合結果を得た。
論文参考訳（メタデータ） (2022-03-23T08:40:42Z)
All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文参考訳（メタデータ） (2021-06-24T01:44:10Z)
TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。 TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文参考訳（メタデータ） (2020-12-08T18:55:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。