論文の概要: Text Growing on Leaf
- arxiv url: http://arxiv.org/abs/2209.03016v1
- Date: Wed, 7 Sep 2022 09:22:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-08 12:36:35.882442
- Title: Text Growing on Leaf
- Title(参考訳): 葉に生えるテキスト
- Authors: Chuang. Yang, Mulin. Chen, Yuan. Yuan, and Qi. Wang
- Abstract要約: 不規則字型テキストは、シーンテキスト検出(STD)に課題をもたらす
自然葉静脈に基づくテキスト表現法(LVT)を設計するために,テキスト幾何学的特徴とバイオニックスを組み合わせる。
主静脈に対する側方静脈と細静脈の深い依存性を考慮すると,MOS(Multi-Oriented Smoother)が主静脈の堅牢性を高め,信頼性の高い検出結果が得られた。
- 参考スコア(独自算出の注目度): 26.761735112547953
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Irregular-shaped texts bring challenges to Scene Text Detection (STD).
Although existing contour point sequence-based approaches achieve comparable
performances, they fail to cover some highly curved ribbon-like text lines. It
leads to limited text fitting ability and STD technique application.
Considering the above problem, we combine text geometric characteristics and
bionics to design a natural leaf vein-based text representation method (LVT).
Concretely, it is found that leaf vein is a generally directed graph, which can
easily cover various geometries. Inspired by it, we treat text contour as leaf
margin and represent it through main, lateral, and thin veins. We further
construct a detection framework based on LVT, namely LeafText. In the text
reconstruction stage, LeafText simulates the leaf growth process to rebuild
text contour. It grows main vein in Cartesian coordinates to locate text
roughly at first. Then, lateral and thin veins are generated along the main
vein growth direction in polar coordinates. They are responsible for generating
coarse contour and refining it, respectively. Considering the deep dependency
of lateral and thin veins on main vein, the Multi-Oriented Smoother (MOS) is
proposed to enhance the robustness of main vein to ensure a reliable detection
result. Additionally, we propose a global incentive loss to accelerate the
predictions of lateral and thin veins. Ablation experiments demonstrate LVT is
able to depict arbitrary-shaped texts precisely and verify the effectiveness of
MOS and global incentive loss. Comparisons show that LeafText is superior to
existing state-of-the-art (SOTA) methods on MSRA-TD500, CTW1500, Total-Text,
and ICDAR2015 datasets.
- Abstract(参考訳): 不規則な形のテキストは、Scene Text Detection (STD) に課題をもたらす。
既存の輪郭点列に基づくアプローチは同等のパフォーマンスを達成するが、非常に湾曲したリボンのようなテキスト線をカバーできない。
これはテキストフィッティング能力の制限とSTD技術の適用につながる。
以上の問題を考慮し,テキスト幾何学的特徴とバイオニックスを組み合わせて,自然葉静脈に基づくテキスト表現法(LVT)を設計する。
具体的には、葉脈は概ね有向グラフであり、様々なジオメトリを容易にカバーできる。
テキストの輪郭を葉の縁として扱い,それを主静脈,側静脈,細静脈を通して表現する。
さらに,LVT,すなわちLeafTextに基づく検出フレームワークを構築した。
テキスト再構成段階では、リーフテキストは葉の成長過程をシミュレートしてテキスト輪郭を再構築する。
カルテシアン座標で主静脈を成長させ、テキストを大まかに見つける。
そして、主静脈成長方向に沿って極座標で横静脈及び薄静脈を生成する。
彼らは粗い輪郭を生成し、それを精製する責任がある。
主静脈に対する側方静脈と細静脈の深い依存性を考慮すると,MOS(Multi-Oriented Smoother)が主静脈の堅牢性を高め,信頼性の高い検出結果が得られた。
さらに, 横静脈および薄静脈の予測を加速するためのグローバルインセンティブ損失を提案する。
アブレーション実験は、LVTが任意の形のテキストを正確に描写し、MOSの有効性と世界的なインセンティブ損失を検証できることを示した。
比較では、LeafTextはMSRA-TD500, CTW1500, Total-Text, ICDAR2015データセット上の既存の最先端(SOTA)手法よりも優れている。
関連論文リスト
- Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Expressive Text-to-Image Generation with Rich Text [42.923053338525804]
フォントスタイル,サイズ,色,フットノートなどのフォーマットをサポートするリッチテキストエディタを提案する。
それぞれの単語の属性をリッチテキストから抽出し、局所的なスタイル制御、明示的なトークン再重み付け、正確な色レンダリング、詳細な領域合成を可能にする。
論文 参考訳(メタデータ) (2023-04-13T17:59:55Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Exemplar Guided Deep Neural Network for Spatial Transcriptomics Analysis
of Gene Expression Prediction [9.192169460752805]
本稿では,組織スライド画像の各ウィンドウから直接,遺伝子発現を高精度かつ効率的に予測するExemplar Guided Network(EGN)を提案する。
我々のEGNフレームワークは,(1)教師なし検索のための表現空間を構成する抽出器,(2)入力ウィンドウの表現を段階的に抽出する視覚変換器(ViT)バックボーン,(3)中間の例を用いて中間のViT表現を適応的に修正するExemplar Bridging(EB)ブロックの3つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-10-30T02:22:20Z) - Towards Implicit Text-Guided 3D Shape Generation [81.22491096132507]
本研究は,テキストから3次元形状を生成するという課題について考察する。
テキスト記述にマッチする色で高忠実な形状を生成できるテキスト誘導型3次元形状生成のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-28T10:20:03Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Text line extraction using fully convolutional network and energy
minimization [0.0]
本稿では,テキスト線検出とエネルギー最小化のための完全畳み込みネットワークを提案する。
提案手法をVML-AHTE, VML-MOC, Diva-HisDBデータセット上で評価した。
論文 参考訳(メタデータ) (2021-01-18T23:23:03Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。