論文の概要: Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation
- arxiv url: http://arxiv.org/abs/2305.02577v1
- Date: Thu, 4 May 2023 06:21:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:47:39.751060
- Title: Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation
- Title(参考訳): スパースグラフセグメンテーションによる無制御条件下でのテキスト読み出し順序
- Authors: Renshen Wang, Yasuhisa Fujii and Alessandro Bissacco
- Abstract要約: テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
- 参考スコア(独自算出の注目度): 71.40119152422295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text reading order is a crucial aspect in the output of an OCR engine, with a
large impact on downstream tasks. Its difficulty lies in the large variation of
domain specific layout structures, and is further exacerbated by real-world
image degradations such as perspective distortions. We propose a lightweight,
scalable and generalizable approach to identify text reading order with a
multi-modal, multi-task graph convolutional network (GCN) running on a sparse
layout based graph. Predictions from the model provide hints of bidimensional
relations among text lines and layout region structures, upon which a
post-processing cluster-and-sort algorithm generates an ordered sequence of all
the text lines. The model is language-agnostic and runs effectively across
multi-language datasets that contain various types of images taken in
uncontrolled conditions, and it is small enough to be deployed on virtually any
platform including mobile devices.
- Abstract(参考訳): テキストの読み込み順序は、OCRエンジンの出力において重要な側面であり、下流タスクに大きな影響を与えます。
その困難さはドメイン固有のレイアウト構造の大きなバリエーションにあり、視点歪みのような現実世界の画像劣化によってさらに悪化する。
本稿では,マルチモーダル・マルチタスクグラフ畳み込みネットワーク(GCN)をスパースレイアウトグラフ上で動作させることにより,テキストの読み出し順序を軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルからの予測は、テキスト行とレイアウト領域構造の間の2次元関係のヒントを提供し、その上で、後処理のクラスタ・アンド・ソートアルゴリズムが全てのテキスト行の順序列を生成する。
このモデルは言語に依存しず、制御不能な環境で撮影されたさまざまなタイプのイメージを含む多言語データセットで効果的に動作し、モバイルデバイスを含む事実上あらゆるプラットフォームにデプロイできるほど小さい。
関連論文リスト
- SG-Adapter: Enhancing Text-to-Image Generation with Scene Graph Guidance [46.77060502803466]
本稿では,シーングラフの構造化表現を利用したScene Graph Adapter(SG-Adapter)を導入する。
SG-Adapterの明示的で完全に連結されていないグラフ表現は、完全に連結されたトランスフォーマーベースのテキスト表現を大幅に改善する。
論文 参考訳(メタデータ) (2024-05-24T08:00:46Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文 参考訳(メタデータ) (2023-04-24T03:54:48Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - StrokeNet: Stroke Assisted and Hierarchical Graph Reasoning Networks [31.76016966100244]
StrokeNetは、きめ細かいストロークをキャプチャすることで、テキストを効果的に検出する。
テキスト領域を一連のポイントや長方形のボックスで表現する既存のアプローチとは異なり、各テキストインスタンスのストロークを直接ローカライズする。
論文 参考訳(メタデータ) (2021-11-23T08:26:42Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。