論文の概要: TSAL: Few-shot Text Segmentation Based on Attribute Learning
- arxiv url: http://arxiv.org/abs/2504.11164v1
- Date: Tue, 15 Apr 2025 13:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:09:44.120697
- Title: TSAL: Few-shot Text Segmentation Based on Attribute Learning
- Title(参考訳): TSAL:属性学習に基づくテキストセグメンテーション
- Authors: Chenming Li, Chengxu Liu, Yuanting Fan, Xiao Jin, Xingsong Hou, Xueming Qian,
- Abstract要約: 本稿では,CLIPの事前知識を利用してテキスト属性のセグメンテーションを学習するTSALを提案する。
データ依存性を低減し、テキスト検出精度を向上させるため、適応的なプロンプト誘導分岐は効果的な適応的なプロンプトテンプレートを使用する。
実験により, 複数テキストセグメンテーションデータセット上でのSOTA性能について, 数ショット設定で検証した。
- 参考スコア(独自算出の注目度): 21.413607725856263
- License:
- Abstract: Recently supervised learning rapidly develops in scene text segmentation. However, the lack of high-quality datasets and the high cost of pixel annotation greatly limit the development of them. Considering the well-performed few-shot learning methods for downstream tasks, we investigate the application of the few-shot learning method to scene text segmentation. We propose TSAL, which leverages CLIP's prior knowledge to learn text attributes for segmentation. To fully utilize the semantic and texture information in the image, a visual-guided branch is proposed to separately extract text and background features. To reduce data dependency and improve text detection accuracy, the adaptive prompt-guided branch employs effective adaptive prompt templates to capture various text attributes. To enable adaptive prompts capture distinctive text features and complex background distribution, we propose Adaptive Feature Alignment module(AFA). By aligning learnable tokens of different attributes with visual features and prompt prototypes, AFA enables adaptive prompts to capture both general and distinctive attribute information. TSAL can capture the unique attributes of text and achieve precise segmentation using only few images. Experiments demonstrate that our method achieves SOTA performance on multiple text segmentation datasets under few-shot settings and show great potential in text-related domains.
- Abstract(参考訳): 近年,シーンテキストセグメンテーションにおいて教師付き学習が急速に発達している。
しかし、高品質なデータセットの欠如と、ピクセルアノテーションの高コストは、それらの開発を著しく制限する。
ダウンストリームタスクに対する高性能な数ショット学習法を考えると,シーンテキストセグメンテーションにおける数ショット学習法の応用について検討する。
本稿では,CLIPの事前知識を利用してテキスト属性のセグメンテーションを学習するTSALを提案する。
画像中の意味情報とテクスチャ情報を十分に活用するために,視覚誘導ブランチを提案し,テキストと背景の特徴を別々に抽出する。
データ依存性を低減し、テキスト検出精度を向上させるため、適応的なプロンプト誘導分岐は、効果的な適応的なプロンプトテンプレートを使用して、様々なテキスト属性をキャプチャする。
そこで我々は,適応的特徴調整モジュール (Adaptive Feature Alignment Module, AFA) を提案する。
異なる属性の学習可能なトークンを視覚的特徴に整合させ、プロトタイプをプロンプトすることで、AFAは一般的な属性情報と特徴的な属性情報の両方を取得する適応的なプロンプトを可能にする。
TSALはテキストのユニークな属性をキャプチャし、わずかな画像だけで正確なセグメンテーションを実現できる。
実験により, 複数テキストセグメンテーションデータセット上でのSOTA性能が向上し, テキスト関連領域において大きな可能性が示された。
関連論文リスト
- Enhancing Visual Representation for Text-based Person Searching [9.601697802095119]
VFE-TPSは、ビジュアルフィーチャ強化テキストベースのPerson Searchモデルである。
基本的なマルチモーダル機能を学ぶために、トレーニング済みのバックボーンCLIPを導入する。
Text Guided Masked Image Modelingタスクを構築し、局所的な視覚的詳細を学習するモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-12-30T01:38:14Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Towards Unified Text-based Person Retrieval: A Large-scale
Multi-Attribute and Language Search Benchmark [24.366997699462075]
我々は,MALSと呼ばれるテキストに基づく人物検索のための多属性・言語検索データセットを大規模に導入した。
プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。
生成したデータから学習する可能性を検証するために,新たに属性プロンプト学習とテキストマッチング学習フレームワークを開発する。
論文 参考訳(メタデータ) (2023-06-05T14:06:24Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。