論文の概要: Box2Poly: Memory-Efficient Polygon Prediction of Arbitrarily Shaped and
Rotated Text
- arxiv url: http://arxiv.org/abs/2309.11248v1
- Date: Wed, 20 Sep 2023 12:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 16:21:15.092025
- Title: Box2Poly: Memory-Efficient Polygon Prediction of Arbitrarily Shaped and
Rotated Text
- Title(参考訳): Box2Poly: 任意形状および回転テキストのメモリ効率の良いポリゴン予測
- Authors: Xuyang Chen, Dong Wang, Konrad Schindler, Mingwei Sun, Yongliang Wang,
Nicolo Savioli, Liqiu Meng
- Abstract要約: トランスフォーマーに基づくテキスト検出技術は多角形を予測する。
本稿では,ポリゴン予測のためのカスケードデコードパイプラインであるSparse R-CNNをルーツとする革新的なアプローチを提案する。
提案手法は,先行結果のスケールと位置を考慮し,ポリゴン予測を反復的に精錬することで精度を確保できる。
- 参考スコア(独自算出の注目度): 27.556486778356014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer-based text detection techniques have sought to predict
polygons by encoding the coordinates of individual boundary vertices using
distinct query features. However, this approach incurs a significant memory
overhead and struggles to effectively capture the intricate relationships
between vertices belonging to the same instance. Consequently, irregular text
layouts often lead to the prediction of outlined vertices, diminishing the
quality of results. To address these challenges, we present an innovative
approach rooted in Sparse R-CNN: a cascade decoding pipeline for polygon
prediction. Our method ensures precision by iteratively refining polygon
predictions, considering both the scale and location of preceding results.
Leveraging this stabilized regression pipeline, even employing just a single
feature vector to guide polygon instance regression yields promising detection
results. Simultaneously, the leverage of instance-level feature proposal
substantially enhances memory efficiency (>50% less vs. the state-of-the-art
method DPText-DETR) and reduces inference speed (>40% less vs. DPText-DETR)
with minor performance drop on benchmarks.
- Abstract(参考訳): 近年,個々の境界頂点の座標を異なるクエリ特徴を用いてエンコードすることにより,多角形予測が試みられている。
しかし、このアプローチは大きなメモリオーバーヘッドを引き起こし、同一インスタンスに属する頂点間の複雑な関係を効果的に捉えるのに苦労する。
その結果、不規則なテキストレイアウトは概説された頂点の予測につながり、結果の品質が低下する。
これらの課題に対処するために,多角形予測のためのカスケードデコードパイプラインであるSparse R-CNNをルーツとする革新的なアプローチを提案する。
提案手法は,先行結果のスケールと位置を考慮し,ポリゴン予測を反復的に精錬することで精度を確保する。
この安定化回帰パイプラインを活用することで、単一の特徴ベクトルを使ってポリゴンインスタンスの回帰を導くだけでも、有望な検出結果が得られる。
同時に、インスタンスレベルの機能提案の活用により、メモリ効率が大幅に向上(最先端のDPText-DETRに比べて50%低下)し、ベンチマークの性能低下により推論速度が低下する(>40%低下)。
関連論文リスト
- LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - Towards General-Purpose Representation Learning of Polygonal Geometries [62.34832826705641]
我々は,多角形形状を埋め込み空間に符号化できる汎用多角形符号化モデルを開発した。
1)MNISTに基づく形状分類,2)DBSR-46KとDBSR-cplx46Kという2つの新しいデータセットに基づく空間関係予測を行う。
以上の結果から,NUFTspec と ResNet1D は,既存のベースラインよりも有意なマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-29T15:59:23Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Bidirectional Regression for Arbitrary-Shaped Text Detection [16.30976392505236]
本稿では,前景情報と背景情報の両方をパイプラインに統合した新しいテキストインスタンス表現を提案する。
対応する後処理アルゴリズムは、4つの予測結果を逐次組み合わせてテキストインスタンスを正確に再構築するように設計されている。
本手法は,曲面および多目的テキストデータセットを含む,いくつかの挑戦的なシーンテキストベンチマークで評価する。
論文 参考訳(メタデータ) (2021-07-13T14:29:09Z) - ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text
Spotting [108.93803186429017]
エンドツーエンドのテキストスポッティングは、統一されたフレームワークで検出と認識を統合することを目指している。
本稿では、Adaptive Bezier Curve Network v2 (ABCNet v2) を提示することで、エンドツーエンドテキストスポッティングに取り組む。
1) 任意の形状のテキストをパラメータ化されたベジアー曲線で適応的に適合させ, セグメンテーション法と比較すると, 構造的な出力だけでなく, 制御可能な表現も提供できる。
様々なバイリンガル(英語と中国語)ベンチマークデータセットで実施された総合的な実験は、ABCNet v2が現状を達成することを実証している。
論文 参考訳(メタデータ) (2021-05-08T07:46:55Z) - FC2RN: A Fully Convolutional Corner Refinement Network for Accurate
Multi-Oriented Scene Text Detection [16.722639253025996]
完全畳み込み角補正ネットワーク (FC2RN) が提案されている。
多目的シーンテキストに特化した新規な四角形RoI畳み込み演算により、初期四角形予測を特徴写像に符号化する。
論文 参考訳(メタデータ) (2020-07-10T00:04:24Z) - Unstructured Road Vanishing Point Detection Using the Convolutional
Neural Network and Heatmap Regression [3.8170259685864165]
本稿では,畳み込みニューラルネットワーク(CNN)と熱マップ回帰を組み合わせた新しい手法を提案する。
提案アルゴリズムは、まず軽量なバックボーン、すなわち深度的に畳み込み修正されたHRNetを採用し、非構造化道路画像の階層的特徴を抽出する。
高速かつ高精度な道路VP検出を実現するために, マルチスケール教師付き学習, ヒートマップ超解像, 座標回帰手法の3つの先進戦略を利用する。
論文 参考訳(メタデータ) (2020-06-08T15:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。