論文の概要: CPN: Complementary Proposal Network for Unconstrained Text Detection
- arxiv url: http://arxiv.org/abs/2402.11540v1
- Date: Sun, 18 Feb 2024 10:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-02-20 20:34:23.563679
- Title: CPN: Complementary Proposal Network for Unconstrained Text Detection
- Title(参考訳): CPN:制約なしテキスト検出のための補完提案ネットワーク
- Authors: Longhuang Wu, Shangxuan Tian, Youxin Wang, Pengfei Xiong
- Abstract要約: 本稿では,セマンティックおよび幾何学的情報をシームレスに統合し,優れた性能を実現する補完的提案ネットワークを提案する。
補完的な提案と特徴の両方を活用することで、CPNは同等のコストで最先端のアプローチよりも優れたマージンを持つ。
- 参考スコア(独自算出の注目度): 7.524080426954018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for scene text detection can be divided into two paradigms:
segmentation-based and anchor-based. While Segmentation-based methods are
well-suited for irregular shapes, they struggle with compact or overlapping
layouts. Conversely, anchor-based approaches excel for complex layouts but
suffer from irregular shapes. To strengthen their merits and overcome their
respective demerits, we propose a Complementary Proposal Network (CPN) that
seamlessly and parallelly integrates semantic and geometric information for
superior performance. The CPN comprises two efficient networks for proposal
generation: the Deformable Morphology Semantic Network, which generates
semantic proposals employing an innovative deformable morphological operator,
and the Balanced Region Proposal Network, which produces geometric proposals
with pre-defined anchors. To further enhance the complementarity, we introduce
an Interleaved Feature Attention module that enables semantic and geometric
features to interact deeply before proposal generation. By leveraging both
complementary proposals and features, CPN outperforms state-of-the-art
approaches with significant margins under comparable computation cost.
Specifically, our approach achieves improvements of 3.6%, 1.3% and 1.0% on
challenging benchmarks ICDAR19-ArT, IC15, and MSRA-TD500, respectively. Code
for our method will be released.
- Abstract(参考訳): 既存のテキスト検出方法は、セグメンテーションベースとアンカーベースという2つのパラダイムに分けられる。
セグメンテーションベースの手法は不規則な形状に適しているが、コンパクトもしくは重なり合うレイアウトに苦労する。
逆に、アンカーベースのアプローチは複雑なレイアウトでは優れているが、不規則な形状に苦しむ。
それらのメリットを強化し,それぞれのデメリットを克服するために,意味的および幾何学的情報をシームレスに統合し,優れた性能を実現する補完的提案ネットワーク(cpn)を提案する。
cpnは、革新的な変形可能な形態素演算子を用いた意味的提案を生成する変形可能形態素意味ネットワークと、事前定義されたアンカーを用いた幾何学的提案を生成するバランスド領域提案ネットワークである。
補間性をさらに向上するため,提案生成前に意味的および幾何学的特徴を深く相互作用させるインターリーブド・フィーチャー・アテンション・モジュールを導入する。
補完的な提案と特徴の両方を活用することで、CPNは同等の計算コストで最先端のアプローチよりも優れたマージンを持つ。
具体的には, icdar19-art, ic15, msra-td500をそれぞれ3.6%, 1.3%, 1.0%改善した。
私たちのメソッドのコードはリリースされます。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Generalized Correspondence Matching via Flexible Hierarchical Refinement
and Patch Descriptor Distillation [13.802788788420175]
対応マッチングは多くのロボティクス応用において重要な役割を担っている。
本稿では,SoTA (State-of-the-art) のプラグ・アンド・プレイ対応手法であるDFM (Deep Feature Match) の限界に対処する。
提案手法は,それぞれ1,3,5画素に対する平均マッチング精度0.68,0.92,0.95の総合的な性能を実現する。
論文 参考訳(メタデータ) (2024-03-08T15:32:18Z) - ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object
Detection [114.54835359657707]
ProposalContrastは、教師なしのポイントクラウド事前トレーニングフレームワークである。
地域提案と対比することで、堅牢な3D表現を学習する。
ProposalContrastは様々な3D検出器で検証される。
論文 参考訳(メタデータ) (2022-07-26T04:45:49Z) - Semi-supervised Domain Adaptive Structure Learning [72.01544419893628]
半教師付きドメイン適応 (SSDA) は,1) アノテーションの低いデータに過度に適合する手法と,2) ドメイン間の分散シフトの両方を克服しなければならない課題である。
SSLとDAの協調を正規化するための適応型構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-12-12T06:11:16Z) - Contrastive Proposal Extension with LSTM Network for Weakly Supervised
Object Detection [52.86681130880647]
画像レベルのラベルしか使用せず、膨大なアノテーションコストを節約できるため、WSOD (Weakly supervised Object Detection) が注目されている。
本稿では,初期提案と拡張提案を比較して,初期提案を最適化する手法を提案する。
PASCAL VOC 2007 と VOC 2012 と MS-COCO のデータセットを用いた実験により,本手法は最先端の結果を得た。
論文 参考訳(メタデータ) (2021-10-14T16:31:57Z) - Adaptive Proposal Generation Network for Temporal Sentence Localization
in Videos [58.83440885457272]
ビデオ(TSLV)における時間文ローカライゼーションの問題に対処する。
従来のメソッドは、事前に定義されたセグメントの提案でターゲットセグメントをローカライズするトップダウンフレームワークに従っている。
本稿では,効率を向上しつつセグメントレベルの相互作用を維持するための適応提案生成ネットワーク(APGN)を提案する。
論文 参考訳(メタデータ) (2021-09-14T02:02:36Z) - U-mesh: Human Correspondence Matching with Mesh Convolutional Networks [15.828285556159026]
本稿では,パラメータテンプレートモデルを生の走査メッシュに適合させるために,レグレッション(ボトムアップ)と生成(トップダウン)のエレガントな融合を提案する。
最初の大きな貢献は、テンプレート表面への点対応を予測する固有の畳み込みメッシュU-netアーキテクチャである。
FAUST対応課題に対する提案手法の評価を行い,対象者間対応技術の現状を20%(33%)改善する方法について検討した。
論文 参考訳(メタデータ) (2021-08-15T08:58:45Z) - Primal-Dual Mesh Convolutional Neural Networks [62.165239866312334]
本稿では,グラフ・ニューラル・ネットワークの文献からトライアングル・メッシュへ引き起こされた原始双対のフレームワークを提案する。
提案手法は,3次元メッシュのエッジと顔の両方を入力として特徴付け,動的に集約する。
メッシュ単純化の文献から得られたツールを用いて、我々のアプローチに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2020-10-23T14:49:02Z) - Deep-3DAligner: Unsupervised 3D Point Set Registration Network With
Optimizable Latent Vector [15.900382629390297]
本稿では,3次元登録における技術的課題に対処するために,学習に最適化を統合する新しいモデルを提案する。
ディープトランスフォーメーションデコーディングネットワークに加えて、我々のフレームワークは最適化可能なディープアンダーラインSpatial UnderlineCorrelation UnderlineRepresentationを導入している。
論文 参考訳(メタデータ) (2020-09-29T22:44:38Z) - Spatial-Scale Aligned Network for Fine-Grained Recognition [42.71878867504503]
精密な視覚認識のための既存のアプローチは、境界領域に基づく表現の学習に重点を置いている。
本稿では,空間スケールアライメントネットワーク(SSANET)を提案する。
論文 参考訳(メタデータ) (2020-01-05T11:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。