Fugu-MT 論文翻訳(概要): SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition

論文の概要: SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition

arxiv url: http://arxiv.org/abs/2005.13117v4
Date: Mon, 25 Oct 2021 09:33:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-28 09:16:54.446718
Title: SPIN: Structure-Preserving Inner Offset Network for Scene Text Recognition
Title（参考訳）: SPIN:シーンテキスト認識のための構造保存型外部オフセットネットワーク
Authors: Chengwei Zhang, Yunlu Xu, Zhanzhan Cheng, Shiliang Pu, Yi Niu, Fei Wu and Futai Zou
Abstract要約: 任意テキストの出現は、シーンテキスト認識タスクにおいて大きな課題となる。我々は新しい学習可能な幾何学的非関連モジュールであるStructure-Preserving Inner Offset Network (SPIN)を導入する。 SPINは、ネットワーク内のソースデータの色操作を可能にする。
参考スコア（独自算出の注目度）: 48.676064155070556
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Arbitrary text appearance poses a great challenge in scene text recognition tasks. Existing works mostly handle with the problem in consideration of the shape distortion, including perspective distortions, line curvature or other style variations. Therefore, methods based on spatial transformers are extensively studied. However, chromatic difficulties in complex scenes have not been paid much attention on. In this work, we introduce a new learnable geometric-unrelated module, the Structure-Preserving Inner Offset Network (SPIN), which allows the color manipulation of source data within the network. This differentiable module can be inserted before any recognition architecture to ease the downstream tasks, giving neural networks the ability to actively transform input intensity rather than the existing spatial rectification. It can also serve as a complementary module to known spatial transformations and work in both independent and collaborative ways with them. Extensive experiments show that the use of SPIN results in a significant improvement on multiple text recognition benchmarks compared to the state-of-the-arts.
Abstract（参考訳）: 任意テキストの出現は、シーンテキスト認識タスクにおいて大きな課題となる。既存の作品は、視線歪み、線曲率、その他のスタイルのバリエーションを含む形状歪みを考慮して、主にこの問題に対処する。そのため空間変圧器に基づく手法が広く研究されている。しかし、複雑な場面における色難しさはあまり注目されていない。本研究では,新たな学習可能な幾何学的非関連モジュールである構造保存型内部オフセットネットワーク(SPIN)を導入し,ネットワーク内のソースデータの色操作を可能にする。この微分可能なモジュールは、どの認識アーキテクチャよりも先に挿入することで、下流タスクを容易にし、ニューラルネットワークが既存の空間的整流よりも積極的に入力強度を変換できる。また、既知の空間変換の補完モジュールとしても機能し、それらと独立かつ協調的な方法で機能する。大規模な実験により、SPINの使用により、最先端技術と比較して、複数のテキスト認識ベンチマークが大幅に改善されることが示されている。

関連論文リスト

CrossModalityDiffusion: Multi-Modal Novel View Synthesis with Unified Intermediate Representation [0.5242869847419834]
CrossModalityDiffusion(クロスモダリティ・ディフュージョン)は、シーン幾何学の知識を必要とせず、様々なモダリティにまたがる画像を生成するために設計されたモジュラーフレームワークである。異なるモジュールを共同でトレーニングすることで、フレームワーク内のすべてのモダリティに対して一貫した幾何学的理解が保証されることを示す。合成ShapeNet車のデータセット上でのCrossModalityDiffusionの機能を検証する。
論文参考訳（メタデータ） (2025-01-16T20:56:32Z)
Interpretable deformable image registration: A geometric deep learning perspective [9.13809412085203]
解釈可能な登録フレームワークを設計するための理論的基盤を提示する。粗い方法で変換を洗練するエンドツーエンドのプロセスを定式化します。我々は、最先端のアプローチよりもパフォーマンスの指標が大幅に改善されたと結論付けている。
論文参考訳（メタデータ） (2024-12-17T19:47:10Z)
Latent Space Translation via Semantic Alignment [29.2401314068038]
我々は、異なるニューラルモジュールから学んだ表現が、異なる事前学習されたネットワーク間でどのように変換されるかを示す。提案手法は, 与えられた2つの潜在空間間の変換を直接推定することにより, 付加的な訓練を伴わずに, エンコーダとデコーダを効果的に縫合できる。特に、ゼロショットテクストテキストエンコーダやビジョンデコーダ、あるいはリバーサがいかに可能かを示し、このマルチモーダル環境で驚くほど優れた分類性能が得られることを示す。
論文参考訳（メタデータ） (2023-11-01T17:12:00Z)
Exploring Geometry of Blind Spots in Vision Models [56.47644447201878]
CNNやトランスフォーマーのような視覚モデルにおける過敏性の現象について検討する。本稿では,入力空間に対する信頼度の高い領域を反復的に探索するレベルセットトラバースアルゴリズムを提案する。モデルが高い信頼度を維持するこれらの連結高次元領域の範囲を推定する。
論文参考訳（メタデータ） (2023-10-30T18:00:33Z)
FMRT: Learning Accurate Feature Matching with Reconciliatory Transformer [29.95553680263075]
本稿では,複数の受容場と異なる特徴を適応的に整合する検出不要な手法であるFMRTを提案する。 FMRTは、ポーズ推定、視覚的ローカライゼーション、ホモグラフィー推定、画像マッチングなど、複数のベンチマークで素晴らしいパフォーマンスを得る。
論文参考訳（メタデータ） (2023-10-20T15:54:18Z)
ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文参考訳（メタデータ） (2023-08-20T03:22:23Z)
Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文参考訳（メタデータ） (2023-08-17T11:57:49Z)
Enhancing Deformable Local Features by Jointly Learning to Detect and Describe Keypoints [8.390939268280235]
局所特徴抽出は、画像マッチングや検索といった重要なタスクに対処するためのコンピュータビジョンにおける標準的なアプローチである。鍵点を共同で検出・記述する新しい変形認識ネットワークであるDALFを提案する。提案手法は、変形可能なオブジェクト検索と、非剛性な3次元表面登録という、2つの実世界のアプリケーションの性能を向上させる。
論文参考訳（メタデータ） (2023-04-02T18:01:51Z)
Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文参考訳（メタデータ） (2022-12-28T03:45:56Z)
TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。 TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-11-16T09:10:39Z)
Context Decoupling Augmentation for Weakly Supervised Semantic Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文参考訳（メタデータ） (2021-03-02T15:05:09Z)
Multi-Subspace Neural Network for Image Recognition [33.61205842747625]
画像分類タスクでは, 特徴抽出は常に大きな問題であり, クラス内変動により抽出器の設計が困難になる。近年、ディープラーニングはデータから機能を自動的に学習することに多くの注意を払っている。本研究では,畳み込みニューラルネットワーク(CNN)のキーコンポーネントをサブスペースの概念と組み合わせたマルチサブスペースニューラルネットワーク(MSNN)を提案する。
論文参考訳（メタデータ） (2020-06-17T02:55:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。