論文の概要: SimAN: Exploring Self-Supervised Representation Learning of Scene Text
via Similarity-Aware Normalization
- arxiv url: http://arxiv.org/abs/2203.10492v2
- Date: Tue, 22 Mar 2022 12:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 10:22:08.792760
- Title: SimAN: Exploring Self-Supervised Representation Learning of Scene Text
via Similarity-Aware Normalization
- Title(参考訳): SimAN: 類似性を考慮した正規化によるシーンテキストの自己教師付き表現学習
- Authors: Canjie Luo, Lianwen Jin, Jingdong Chen
- Abstract要約: 自己指導型表現学習は、現場テキスト認識コミュニティからかなりの注目を集めている。
表現学習スキームを生成的手法で定式化することで,この問題に対処する。
そこで我々は,異なるパターンを識別し,対応するスタイルを誘導パッチから整列するSimANモジュールを提案する。
- 参考スコア(独自算出の注目度): 66.35116147275568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently self-supervised representation learning has drawn considerable
attention from the scene text recognition community. Different from previous
studies using contrastive learning, we tackle the issue from an alternative
perspective, i.e., by formulating the representation learning scheme in a
generative manner. Typically, the neighboring image patches among one text line
tend to have similar styles, including the strokes, textures, colors, etc.
Motivated by this common sense, we augment one image patch and use its
neighboring patch as guidance to recover itself. Specifically, we propose a
Similarity-Aware Normalization (SimAN) module to identify the different
patterns and align the corresponding styles from the guiding patch. In this
way, the network gains representation capability for distinguishing complex
patterns such as messy strokes and cluttered backgrounds. Experiments show that
the proposed SimAN significantly improves the representation quality and
achieves promising performance. Moreover, we surprisingly find that our
self-supervised generative network has impressive potential for data synthesis,
text image editing, and font interpolation, which suggests that the proposed
SimAN has a wide range of practical applications.
- Abstract(参考訳): 近年,シーンテキスト認識コミュニティから自己指導型表現学習が注目されている。
コントラスト学習を用いた従来の研究とは違って,表現学習の枠組みを生成的に定式化することで,別の観点から問題に取り組む。
典型的には、隣接するテキスト行のイメージパッチは、ストローク、テクスチャ、色など、類似したスタイルを持つ傾向にある。
この常識によって、イメージパッチを1つ増やし、隣接するパッチをガイダンスとして使用して、自分自身を回復します。
具体的には、異なるパターンを特定し、対応するスタイルを導くための類似性認識正規化(siman)モジュールを提案する。
このように、ネットワークは乱雑なストロークやごちゃごちゃした背景といった複雑なパターンを区別する表現能力を得る。
実験の結果,提案したSimANは表現品質を著しく向上し,有望な性能を実現することがわかった。
さらに、我々の自己教師型生成ネットワークは、データ合成、テキスト画像編集、フォント補間など、驚くほどの可能性を秘めており、提案したSimANには幅広い実用的な応用があることが示唆されている。
関連論文リスト
- Learning to Model Multimodal Semantic Alignment for Story Visualization [58.16484259508973]
ストーリービジュアライゼーションは、複数文のストーリーで各文をナレーションする一連の画像を生成することを目的としている。
現在の作業は、その固定されたアーキテクチャと入力モダリティの多様性のため、セマンティックなミスアライメントの問題に直面している。
GANに基づく生成モデルにおいて,テキストと画像表現のセマンティックアライメントを学習し,それらのセマンティックレベルを一致させる方法について検討する。
論文 参考訳(メタデータ) (2022-11-14T11:41:44Z) - Compositional Mixture Representations for Vision and Text [43.2292923754127]
視覚と言語の間の共通表現空間により、ディープネットワークは画像内のオブジェクトと対応する意味の意味を関連付けることができる。
本稿では,テキストの合成性を視覚領域に含ませる共有ガウス混合表現を,明示的な位置監督を伴わずに学習するモデルを提案する。
論文 参考訳(メタデータ) (2022-06-13T18:16:40Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations [77.3590853897664]
本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T12:27:30Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。