論文の概要: SRFormer: Text Detection Transformer with Incorporated Segmentation and
Regression
- arxiv url: http://arxiv.org/abs/2308.10531v2
- Date: Sun, 24 Dec 2023 17:43:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 22:08:28.042215
- Title: SRFormer: Text Detection Transformer with Incorporated Segmentation and
Regression
- Title(参考訳): SRFormer: セグメンテーションと回帰を組み込んだテキスト検出変換器
- Authors: Qingwen Bu, Sungrae Park, Minsoo Khang, Yichuan Cheng
- Abstract要約: 本稿では,アマルガメーションと回帰を併用した統合DTRモデルSRFormerを提案する。
実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。
提案手法の強靭性,優れたトレーニングとデータ効率,および最先端の性能について検討した。
- 参考スコア(独自算出の注目度): 6.74412860849373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing techniques for text detection can be broadly classified into two
primary groups: segmentation-based and regression-based methods. Segmentation
models offer enhanced robustness to font variations but require intricate
post-processing, leading to high computational overhead. Regression-based
methods undertake instance-aware prediction but face limitations in robustness
and data efficiency due to their reliance on high-level representations. In our
academic pursuit, we propose SRFormer, a unified DETR-based model with
amalgamated Segmentation and Regression, aiming at the synergistic harnessing
of the inherent robustness in segmentation representations, along with the
straightforward post-processing of instance-level regression. Our empirical
analysis indicates that favorable segmentation predictions can be obtained at
the initial decoder layers. In light of this, we constrain the incorporation of
segmentation branches to the first few decoder layers and employ progressive
regression refinement in subsequent layers, achieving performance gains while
minimizing computational load from the mask.Furthermore, we propose a
Mask-informed Query Enhancement module. We take the segmentation result as a
natural soft-ROI to pool and extract robust pixel representations, which are
then employed to enhance and diversify instance queries. Extensive
experimentation across multiple benchmarks has yielded compelling findings,
highlighting our method's exceptional robustness, superior training and data
efficiency, as well as its state-of-the-art performance. Our code is available
at https://github.com/retsuh-bqw/SRFormer-Text-Det.
- Abstract(参考訳): 既存のテキスト検出技術は、セグメンテーションベースと回帰ベースの2つの主要なグループに大別できる。
セグメンテーションモデルはフォントのバリエーションに対して堅牢性を高めるが、複雑な後処理を必要とし、高い計算オーバーヘッドをもたらす。
回帰に基づく手法はインスタンス認識の予測を行うが、高レベル表現に依存するため、ロバスト性やデータ効率に限界がある。
本研究は,DTRに基づく統合モデルSRFormerを提案する。このSRFormerは,セグメンテーション表現に固有のロバスト性を相乗的に活用し,インスタンスレベルの回帰処理を後処理することを目的としている。
実験分析により,初期デコーダ層で良好なセグメンテーション予測が得られることが示された。
そこで本研究では,マスクから計算負荷を最小限に抑えつつ,性能向上を図るとともに,最初の数層のデコーダ層にセグメンテーションブランチを組み込むことを制限し,その後の層に漸進的なレグレッション改良を施した。
セグメント化結果を自然なソフトROIとして、堅牢なピクセル表現をプールして抽出し、インスタンスクエリの強化と多様化に利用する。
複数のベンチマークをまたいで広範囲に実験した結果,本手法の極めて堅牢性,優れたトレーニングとデータ効率,最先端のパフォーマンスが注目された。
私たちのコードはhttps://github.com/retsuh-bqw/SRFormer-Text-Detで利用可能です。
関連論文リスト
- Early Fusion of Features for Semantic Segmentation [10.362589129094975]
本稿では,効率的な画像分割を実現するために,分類器ネットワークとリバースHRNetアーキテクチャを統合する新しいセグメンテーションフレームワークを提案する。
私たちの手法は、Mapillary Vistas、Cityscapes、CamVid、COCO、PASCAL-VOC2012など、いくつかのベンチマークデータセットで厳格にテストされています。
その結果,画像解析における様々な応用の可能性を示し,高いセグメンテーション精度を実現する上で,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-02-08T22:58:06Z) - Target Variable Engineering [0.0]
数値的対象を予測するために訓練された回帰モデルの予測性能と、2項化対象を予測するために訓練された分類器を比較した。
回帰は最適性能に収束するためには、はるかに多くの計算作業を必要とする。
論文 参考訳(メタデータ) (2023-10-13T23:12:21Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Learning from Mistakes: Self-Regularizing Hierarchical Representations
in Point Cloud Semantic Segmentation [15.353256018248103]
LiDARセマンティックセマンティックセマンティクスは、きめ細かいシーン理解を実現するために注目を集めている。
本稿では、標準モデルから派生した分類ミスタケス(LEAK)からLEArnを分離する粗大な設定を提案する。
我々のLEAKアプローチは非常に一般的で、どんなセグメンテーションアーキテクチャにもシームレスに適用できます。
論文 参考訳(メタデータ) (2023-01-26T14:52:30Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - LAPAR: Linearly-Assembled Pixel-Adaptive Regression Network for Single
Image Super-Resolution and Beyond [75.37541439447314]
単一画像超解像(SISR)は、低解像度(LR)画像を高解像度(HR)バージョンにアップサンプリングする根本的な問題を扱う。
本稿では,線形組立画素適応回帰ネットワーク (LAPAR) を提案する。
論文 参考訳(メタデータ) (2021-05-21T15:47:18Z) - ISTR: End-to-End Instance Segmentation with Transformers [147.14073165997846]
ISTRと呼ばれるインスタンスセグメンテーショントランスフォーマーを提案します。これは、その種類の最初のエンドツーエンドフレームワークです。
ISTRは低次元マスクの埋め込みを予測し、それらのマスクの埋め込みと一致する。
ISTRは、提案されたエンドツーエンドのメカニズムにより、近似ベースのサブオプティマティック埋め込みでも最先端のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-05-03T06:00:09Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Improving Pixel Embedding Learning through Intermediate Distance
Regression Supervision for Instance Segmentation [8.870513218826083]
本稿では,オブジェクト認識型埋め込み学習のための,シンプルで効果的なアーキテクチャを提案する。
距離回帰モジュールをアーキテクチャに組み込んで,高速クラスタリングのためのシードを生成する。
距離回帰モジュールによって学習された特徴は、学習対象認識の埋め込みの精度を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2020-07-13T20:03:30Z) - Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation [12.462608802359936]
動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。