論文の概要: PuzzleNet: Scene Text Detection by Segment Context Graph Learning
- arxiv url: http://arxiv.org/abs/2002.11371v1
- Date: Wed, 26 Feb 2020 09:21:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 15:20:26.583818
- Title: PuzzleNet: Scene Text Detection by Segment Context Graph Learning
- Title(参考訳): puzzlenet:セグメントコンテキストグラフ学習によるシーンテキストの検出
- Authors: Hao Liu, Antai Guo, Deqiang Jiang, Yiqing Hu, Bo Ren
- Abstract要約: そこで本研究では,Puzzle Networks (PuzzleNets) と呼ばれる新しい分解手法を提案する。
セグメントをコンテキストグラフとして構築することで、MSGCNはセグメントの組み合わせを予測するためにセグメントコンテキストを効果的に利用する。
提案手法は,セグメントコンテキストグラフの活用により,現在の最先端技術よりも優れた,あるいは同等の性能を実現することができる。
- 参考スコア(独自算出の注目度): 9.701699882807251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a series of decomposition-based scene text detection methods has
achieved impressive progress by decomposing challenging text regions into
pieces and linking them in a bottom-up manner. However, most of them merely
focus on linking independent text pieces while the context information is
underestimated. In the puzzle game, the solver often put pieces together in a
logical way according to the contextual information of each piece, in order to
arrive at the correct solution. Inspired by it, we propose a novel
decomposition-based method, termed Puzzle Networks (PuzzleNet), to address the
challenging scene text detection task in this work. PuzzleNet consists of the
Segment Proposal Network (SPN) that predicts the candidate text segments
fitting arbitrary shape of text region, and the two-branch Multiple-Similarity
Graph Convolutional Network (MSGCN) that models both appearance and geometry
correlations between each segment to its contextual ones. By building segments
as context graphs, MSGCN effectively employs segment context to predict
combinations of segments. Final detections of polygon shape are produced by
merging segments according to the predicted combinations. Evaluations on three
benchmark datasets, ICDAR15, MSRA-TD500 and SCUT-CTW1500, have demonstrated
that our method can achieve better or comparable performance than current
state-of-the-arts, which is beneficial from the exploitation of segment context
graph.
- Abstract(参考訳): 近年,難易度の高いテキスト領域を分割してボトムアップ方式でリンクすることで,分解ベースのシーンテキスト検出手法が目覚ましい進歩を遂げている。
しかし、それらの多くは、文脈情報が過小評価されている間、独立したテキストのリンクのみに焦点を当てている。
パズルゲームでは、解答者が正しい解に到達するために、各ピースの文脈情報に従って、しばしば論理的な方法でピースを組み立てる。
そこで本研究では,本研究における難解なシーンテキスト検出課題に対処するために,新しい分解ベース手法であるpuzzlenetを提案する。
PuzzleNetは、テキスト領域の任意の形状に適合する候補テキストセグメントを予測するSegment Proposal Network (SPN)と、各セグメントの外観と幾何学的相関をモデル化した2ブランチのMultiple-Similarity Graph Convolutional Network (MSGCN)で構成されている。
セグメントをコンテキストグラフとして構築することで、MSGCNはセグメントの組み合わせを予測するためにセグメントコンテキストを効果的に利用する。
予測された組み合わせに応じてセグメントをマージすることで、ポリゴン形状の最終的な検出を行う。
ICDAR15, MSRA-TD500, SCUT-CTW1500の3つのベンチマークデータから, セグメントコンテキストグラフの活用により, 現在の最先端技術よりも優れた性能が得られることを示した。
関連論文リスト
- TextPSG: Panoptic Scene Graph Generation from Textual Descriptions [78.1140391134517]
我々は、純文記述(Caption-to-PSG)によるパノプティカルシーングラフ生成の新たな課題について検討する。
鍵となるアイデアは、Web上の大量の無料画像キャプチャーデータを活用して、パノラマシーングラフを生成することである。
本研究では,4つのモジュール,すなわちリージョングルーパー,エンティティグルーパー,セグメントマージ,ラベルジェネレータからなる新しいフレームワークであるTextPSGを提案する。
論文 参考訳(メタデータ) (2023-10-10T22:36:15Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - StrokeNet: Stroke Assisted and Hierarchical Graph Reasoning Networks [31.76016966100244]
StrokeNetは、きめ細かいストロークをキャプチャすることで、テキストを効果的に検出する。
テキスト領域を一連のポイントや長方形のボックスで表現する既存のアプローチとは異なり、各テキストインスタンスのストロークを直接ローカライズする。
論文 参考訳(メタデータ) (2021-11-23T08:26:42Z) - Comprehensive Studies for Arbitrary-shape Scene Text Detection [78.50639779134944]
ボトムアップに基づくシーンテキスト検出のための統合フレームワークを提案する。
統一されたフレームワークの下では、非コアモジュールの一貫性のある設定が保証されます。
包括的調査と精巧な分析により、以前のモデルの利点と欠点を明らかにしている。
論文 参考訳(メタデータ) (2021-07-25T13:18:55Z) - Parts2Words: Learning Joint Embedding of Point Clouds and Texts by
Bidirectional Matching between Parts and Words [32.47815081044594]
テキストからの形状と単語の双方向マッチングにより,点雲とテキストの結合埋め込みを学習することを提案する。
具体的には、まず点雲を部品に分割し、次に最適化された特徴空間内の部品と単語を一致させるために最適な輸送手法を利用する。
実験により,本手法はマルチモーダル検索タスクにおけるSOTAの精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2021-07-05T08:55:34Z) - All You Need is a Second Look: Towards Arbitrary-Shaped Text Detection [39.17648241471479]
本稿では,NASK (Need A Second looK) と呼ばれる2段階セグメンテーションによる任意のテキスト検出手法を提案する。
論文 参考訳(メタデータ) (2021-06-24T01:44:10Z) - Deep Relational Reasoning Graph Network for Arbitrary Shape Text
Detection [20.244378408779554]
任意の形状テキスト検出のための新しい統合型関係推論グラフネットワークを提案する。
革新的局所グラフは、CNNとグラフ畳み込みネットワーク(GCN)を介して、テキスト提案モデルと深い関係推論ネットワークを橋渡しする
公開データセットの実験により,本手法の最先端性能が実証された。
論文 参考訳(メタデータ) (2020-03-17T01:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。