論文の概要: Portmanteauing Features for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2211.05036v1
- Date: Wed, 9 Nov 2022 17:14:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:14:48.746290
- Title: Portmanteauing Features for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのポートマントーイング機能
- Authors: Yew Lee Tan, Ernest Yu Kai Chew, Adams Wai-Kin Kong, Jung-Jae Kim, Joo
Hwee Lim
- Abstract要約: State-of-the-artメソッドは、テキスト認識ネットワークに接続された修正ネットワークに依存している。
Portmanteau という単語にインスパイアされた Portmanteau 機能は、元のテキスト画像と修正画像の両方からの情報を含む機能である。
提案手法を6つのベンチマークで検証し,13の最先端手法と比較した。
- 参考スコア(独自算出の注目度): 15.961450585164144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text images have different shapes and are subjected to various
distortions, e.g. perspective distortions. To handle these challenges, the
state-of-the-art methods rely on a rectification network, which is connected to
the text recognition network. They form a linear pipeline which uses text
rectification on all input images, even for images that can be recognized
without it. Undoubtedly, the rectification network improves the overall text
recognition performance. However, in some cases, the rectification network
generates unnecessary distortions on images, resulting in incorrect predictions
in images that would have otherwise been correct without it. In order to
alleviate the unnecessary distortions, the portmanteauing of features is
proposed. The portmanteau feature, inspired by the portmanteau word, is a
feature containing information from both the original text image and the
rectified image. To generate the portmanteau feature, a non-linear input
pipeline with a block matrix initialization is presented. In this work, the
transformer is chosen as the recognition network due to its utilization of
attention and inherent parallelism, which can effectively handle the
portmanteau feature. The proposed method is examined on 6 benchmarks and
compared with 13 state-of-the-art methods. The experimental results show that
the proposed method outperforms the state-of-the-art methods on various of the
benchmarks.
- Abstract(参考訳): シーンテキスト画像は異なる形状を持ち、視点歪みなど様々な歪みを受ける。
これらの課題に対処するため、最先端の手法はテキスト認識ネットワークに接続された修正ネットワークに依存している。
それらは線形パイプラインを形成し、すべての入力画像に対してテキストの整流を、それなしで認識できる画像に対しても使用する。
間違いなく、修正ネットワークは、全体的なテキスト認識性能を改善する。
しかし、場合によっては、整流ネットワークが不必要な画像の歪みを発生させ、そうでなければ正しくなかった画像の誤った予測を生じさせることもある。
不要な歪みを軽減するため,特徴のポートマントーニングが提案されている。
Portmanteau という単語にインスパイアされた Portmanteau 機能は、元のテキスト画像と修正画像の両方からの情報を含む機能である。
ポートマントー特徴を生成するために、ブロック行列初期化を備えた非線形入力パイプラインを示す。
本研究では,ポートマントーの特徴を効果的に処理できる注意と本質的並列性を利用した認識ネットワークとしてトランスフォーマーを選択した。
提案手法は6つのベンチマークで検討し,13の最先端手法と比較した。
実験の結果,提案手法は様々なベンチマークにおいて最先端の手法よりも優れていた。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Saliency Constrained Arbitrary Image Style Transfer using SIFT and DCNN [22.57205921266602]
一般的なニューラルスタイルの転送方法を使用する場合、スタイル画像のテクスチャや色は通常、コンテンツ画像に不完全に転送される。
本稿では,その効果を低減・回避するための新しいサリエンシ制約手法を提案する。
実験により、ソースイメージの正当性マップは正しいマッチングを見つけ出し、アーティファクトを避けるのに役立つことが示された。
論文 参考訳(メタデータ) (2022-01-14T09:00:55Z) - Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps [85.67745220834718]
不規則な穴の画像インペインティングを改善するためのエッジガイド学習可能な双方向注意マップ(Edge-LBAM)を紹介します。
当社のEdge-LBAMメソッドには、予測エッジによる構造認識マスク更新を含むデュアルプロシージャが含まれています。
広範な実験により,エッジlbamはコヒーレントな画像構造を生成し,色差やぼやけを防止できることがわかった。
論文 参考訳(メタデータ) (2021-04-25T07:25:16Z) - Generative and Discriminative Learning for Distorted Image Restoration [22.230017059874445]
Liquifyは、画像の歪みに使用できる画像編集のテクニックである。
本稿では,深層ニューラルネットワークに基づく新しい生成的・識別的学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T14:01:29Z) - Scene Text Recognition via Transformer [36.55457990615167]
任意の形状のシーンテキスト認識は、テキストの形、フォント、色、背景などに大きなバリエーションがあるため、非常に難しい。
ほとんどの最先端アルゴリズムは入力画像を正規化イメージに修正し、認識をシーケンス予測タスクとして扱う。
本稿では,変換器 [50] に基づく簡易かつ極めて効果的なシーンテキスト認識手法を提案する。
論文 参考訳(メタデータ) (2020-03-18T07:38:02Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z) - Learning Transformation-Aware Embeddings for Image Forensics [15.484408315588569]
Image Provenance Analysisは、コンテンツを共有するさまざまな操作されたイメージバージョン間の関係を見つけることを目的としている。
証明分析のための主要なサブプロブレムの1つは、完全なコンテンツを共有したり、ほぼ重複している画像の編集順序である。
本稿では,1つの画像から生成した画像に対して,変換を通じて妥当な順序付けを行うための,新しい深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-01-13T22:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。