論文の概要: StrokeNet: Stroke Assisted and Hierarchical Graph Reasoning Networks
- arxiv url: http://arxiv.org/abs/2111.11718v1
- Date: Tue, 23 Nov 2021 08:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:56:01.293163
- Title: StrokeNet: Stroke Assisted and Hierarchical Graph Reasoning Networks
- Title(参考訳): StrokeNet: ストローク支援と階層型グラフ推論ネットワーク
- Authors: Lei Li, Kai Fan and Chun Yuan
- Abstract要約: StrokeNetは、きめ細かいストロークをキャプチャすることで、テキストを効果的に検出する。
テキスト領域を一連のポイントや長方形のボックスで表現する既存のアプローチとは異なり、各テキストインスタンスのストロークを直接ローカライズする。
- 参考スコア(独自算出の注目度): 31.76016966100244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text detection is still a challenging task, as there may be extremely
small or low-resolution strokes, and close or arbitrary-shaped texts. In this
paper, StrokeNet is proposed to effectively detect the texts by capturing the
fine-grained strokes, and infer structural relations between the hierarchical
representation in the graph. Different from existing approaches that represent
the text area by a series of points or rectangular boxes, we directly localize
strokes of each text instance through Stroke Assisted Prediction Network
(SAPN). Besides, Hierarchical Relation Graph Network (HRGN) is adopted to
perform relational reasoning and predict the likelihood of linkages,
effectively splitting the close text instances and grouping node classification
results into arbitrary-shaped text region. We introduce a novel dataset with
stroke-level annotations, namely SynthStroke, for offline pre-training of our
model. Experiments on wide-ranging benchmarks verify the State-of-the-Art
performance of our method. Our dataset and code will be available.
- Abstract(参考訳): シーンのテキスト検出は依然として困難な作業であり、非常に小さなストロークや低解像度のストローク、近接あるいは任意のテキストが存在する可能性がある。
本稿では,きめ細かなストロークを捉えてテキストを効果的に検出し,グラフの階層的表現間の構造的関係を推定するために,ストロークネットを提案する。
一連の点や長方形の箱でテキスト領域を表現する既存のアプローチとは異なり、ストロークアシスト予測ネットワーク(sapn)を介して各テキストインスタンスのストロークを直接ローカライズする。
さらに、階層的関係グラフネットワーク(HRGN)を用いて関係推論を行い、リンクの可能性を予測し、クローズドテキストインスタンスを効果的に分割し、ノード分類結果を任意の形のテキスト領域に分類する。
我々は,モデルのオフライン事前トレーニングのために,ストロークレベルのアノテーションを備えた新しいデータセット,すなわちシンセストロークを導入した。
広帯域ベンチマーク実験により,本手法の有効性が検証された。
データセットとコードは利用可能です。
関連論文リスト
- Pretraining Language Models with Text-Attributed Heterogeneous Graphs [28.579509154284448]
テキスト分散不均質グラフ(TAHG)におけるトポロジ的および異種情報を明確に考察する言語モデル(LM)のための新しい事前学習フレームワークを提案する。
本稿では、LMと補助異種グラフニューラルネットワークを協調最適化することにより、コンテキストグラフに関わるノードを予測するトポロジ対応事前学習タスクを提案する。
各種ドメインの3つのデータセット上でリンク予測とノード分類を行う。
論文 参考訳(メタデータ) (2023-10-19T08:41:21Z) - ConGraT: Self-Supervised Contrastive Pretraining for Joint Graph and Text Embeddings [20.25180279903009]
テキスト分散グラフ(TAG)におけるテキストとノードの分離表現を共同学習するためのContrastive Graph-Text Pretraining(ConGraT)を提案する。
提案手法は言語モデル(LM)とグラフニューラルネットワーク(GNN)を訓練し,CLIPにインスパイアされたバッチワイドコントラスト学習目標を用いて,それらの表現を共通の潜在空間に整列させる。
実験により、ConGraTは、ノードとテキストのカテゴリ分類、リンク予測、言語モデリングなど、さまざまな下流タスクのベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T17:53:30Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - Hierarchical Heterogeneous Graph Representation Learning for Short Text
Classification [60.233529926965836]
短文分類のためのグラフニューラルネットワーク(GNN)に基づく ShiNE と呼ばれる新しい手法を提案する。
まず,短文データセットを単語レベル成分グラフからなる階層的不均一グラフとしてモデル化する。
そして、類似した短いテキスト間の効果的なラベル伝搬を容易にするショート文書グラフを動的に学習する。
論文 参考訳(メタデータ) (2021-10-30T05:33:05Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Deep Relational Reasoning Graph Network for Arbitrary Shape Text
Detection [20.244378408779554]
任意の形状テキスト検出のための新しい統合型関係推論グラフネットワークを提案する。
革新的局所グラフは、CNNとグラフ畳み込みネットワーク(GCN)を介して、テキスト提案モデルと深い関係推論ネットワークを橋渡しする
公開データセットの実験により,本手法の最先端性能が実証された。
論文 参考訳(メタデータ) (2020-03-17T01:50:07Z) - ReLaText: Exploiting Visual Relationships for Arbitrary-Shaped Scene
Text Detection with Graph Convolutional Networks [6.533254660400229]
本稿では,ReLaTextという任意の字型テキスト検出手法を提案する。
この新定式化の有効性を示すために,まず「リンク」関係を用いてテキスト行グループ化の問題に対処する。
我々のGCNベースのテキストライングルーピングアプローチは、従来のテキストライングルーピング手法よりも優れたテキスト検出精度を実現することができる。
論文 参考訳(メタデータ) (2020-03-16T03:33:48Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z) - PuzzleNet: Scene Text Detection by Segment Context Graph Learning [9.701699882807251]
そこで本研究では,Puzzle Networks (PuzzleNets) と呼ばれる新しい分解手法を提案する。
セグメントをコンテキストグラフとして構築することで、MSGCNはセグメントの組み合わせを予測するためにセグメントコンテキストを効果的に利用する。
提案手法は,セグメントコンテキストグラフの活用により,現在の最先端技術よりも優れた,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2020-02-26T09:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。