論文の概要: TextRay: Contour-based Geometric Modeling for Arbitrary-shaped Scene
Text Detection
- arxiv url: http://arxiv.org/abs/2008.04851v2
- Date: Wed, 12 Aug 2020 07:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:56:16.010668
- Title: TextRay: Contour-based Geometric Modeling for Arbitrary-shaped Scene
Text Detection
- Title(参考訳): textray:任意の形状のテキスト検出のための輪郭に基づく幾何モデリング
- Authors: Fangfang Wang, Yifeng Chen, Fei Wu, and Xi Li
- Abstract要約: 本研究では,トップダウンの輪郭型幾何モデリングと幾何パラメータ学習を行う任意の形状のテキスト検出手法であるTextRayを提案する。
いくつかのベンチマークデータセットの実験では、提案手法の有効性が示されている。
- 参考スコア(独自算出の注目度): 20.34326396800748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Arbitrary-shaped text detection is a challenging task due to the complex
geometric layouts of texts such as large aspect ratios, various scales, random
rotations and curve shapes. Most state-of-the-art methods solve this problem
from bottom-up perspectives, seeking to model a text instance of complex
geometric layouts with simple local units (e.g., local boxes or pixels) and
generate detections with heuristic post-processings. In this work, we propose
an arbitrary-shaped text detection method, namely TextRay, which conducts
top-down contour-based geometric modeling and geometric parameter learning
within a single-shot anchor-free framework. The geometric modeling is carried
out under polar system with a bidirectional mapping scheme between shape space
and parameter space, encoding complex geometric layouts into unified
representations. For effective learning of the representations, we design a
central-weighted training strategy and a content loss which builds propagation
paths between geometric encodings and visual content. TextRay outputs simple
polygon detections at one pass with only one NMS post-processing. Experiments
on several benchmark datasets demonstrate the effectiveness of the proposed
approach. The code is available at https://github.com/LianaWang/TextRay.
- Abstract(参考訳): 任意形のテキスト検出は、大きなアスペクト比、様々なスケール、ランダムな回転、曲線形状などのテキストの複雑な幾何学的レイアウトのために難しい課題である。
ほとんどの最先端の手法はボトムアップの観点からこの問題を解決し、単純な局所単位(ローカルボックスやピクセルなど)で複雑な幾何学的レイアウトのテキストインスタンスをモデル化し、ヒューリスティックな後処理で検出する。
本研究では,一発アンカーフリーフレームワークにおいて,トップダウンの輪郭型幾何モデリングと幾何パラメータ学習を行うテキスト検出手法であるTextRayを提案する。
幾何学的モデリングは、形状空間とパラメータ空間の双方向マッピングスキームを用いて極系下で行われ、複雑な幾何学的レイアウトを統一表現に符号化する。
表現の効果的な学習のために,重み付けされた学習戦略と,幾何エンコーディングと視覚コンテンツ間の伝達経路を構築するコンテンツロスをデザインする。
TextRayは1回のNMS後処理で単純なポリゴン検出を出力する。
いくつかのベンチマークデータセットの実験では、提案手法の有効性が示されている。
コードはhttps://github.com/lianawang/textrayで入手できる。
関連論文リスト
- G-NeRF: Geometry-enhanced Novel View Synthesis from Single-View Images [45.66479596827045]
我々は,幾何誘導多視点合成手法により,幾何先行性を高めるための幾何強調型NeRF(G-NeRF)を提案する。
単一視点画像に対する多視点監視の欠如に対処するために,深度認識型トレーニングアプローチを設計する。
論文 参考訳(メタデータ) (2024-04-11T04:58:18Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - Geometrically Consistent Partial Shape Matching [50.29468769172704]
3次元形状の対応を見つけることは、コンピュータビジョンとグラフィックスにおいて重要な問題である。
しばしば無視されるが、整合幾何学の重要な性質は整合性である。
本稿では,新しい整数型線形計画部分形状整合式を提案する。
論文 参考訳(メタデータ) (2023-09-10T12:21:42Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Geometric Representation Learning for Document Image Rectification [137.75133384124976]
本稿では,明示的な幾何学的表現を導入して文書画像の修正を行うDocGeoNetを提案する。
私たちのモチベーションは、歪んだ文書画像の修正に3次元形状がグローバルなアンウォープ手段を提供するという洞察から生まれます。
実験は、我々のフレームワークの有効性を示し、我々のフレームワークが最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-15T01:57:40Z) - Fitting and recognition of geometric primitives in segmented 3D point
clouds using a localized voting procedure [1.8352113484137629]
投票手順によって各タイプの原始パラメータを初期推定できる点雲処理手法を提案する。
これらの推定値を用いることで、最適解の探索を次元的に還元された空間に局所化し、HT を文献で一般的に見られるものよりもより原始的に拡張することが効率的となる。
論文 参考訳(メタデータ) (2022-05-30T20:47:43Z) - PVSeRF: Joint Pixel-, Voxel- and Surface-Aligned Radiance Field for
Single-Image Novel View Synthesis [52.546998369121354]
シングルビューRGB画像からニューラル放射場を再構成する学習フレームワークPVSeRFを提案する。
本稿では,明示的な幾何学的推論を取り入れ,放射場予測のための画素アラインな特徴と組み合わせることを提案する。
このような幾何学的特徴の導入は、外観と幾何学の絡み合いを改善するのに有効であることを示す。
論文 参考訳(メタデータ) (2022-02-10T07:39:47Z) - Hybrid Approach for 3D Head Reconstruction: Using Neural Networks and
Visual Geometry [3.970492757288025]
本稿では,深層学習と幾何学的手法に基づくハイブリッド手法を用いて,複数の画像から3次元頭部を再構築する手法を提案する。
U-netアーキテクチャに基づくエンコーダデコーダネットワークを提案し、合成データのみを学習する。
論文 参考訳(メタデータ) (2021-04-28T11:31:35Z) - Deep Geometric Texture Synthesis [83.9404865744028]
幾何学的テクスチャを合成するための新しい枠組みを提案する。
単一の参照3Dモデルの局所的な近傍からテクスチャ統計を学習する。
我々のネットワークはメッシュ頂点を任意の方向に変位させ、幾何学的テクスチャの合成を可能にする。
論文 参考訳(メタデータ) (2020-06-30T19:36:38Z) - Deep Relational Reasoning Graph Network for Arbitrary Shape Text
Detection [20.244378408779554]
任意の形状テキスト検出のための新しい統合型関係推論グラフネットワークを提案する。
革新的局所グラフは、CNNとグラフ畳み込みネットワーク(GCN)を介して、テキスト提案モデルと深い関係推論ネットワークを橋渡しする
公開データセットの実験により,本手法の最先端性能が実証された。
論文 参考訳(メタデータ) (2020-03-17T01:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。