論文の概要: Scene Text Synthesis for Efficient and Effective Deep Network Training
- arxiv url: http://arxiv.org/abs/1901.09193v3
- Date: Mon, 24 Apr 2023 12:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 02:06:16.989133
- Title: Scene Text Synthesis for Efficient and Effective Deep Network Training
- Title(参考訳): 効率的な深層ネットワーク学習のためのシーンテキスト合成
- Authors: Changgong Zhang, Fangneng Zhan, Hongyuan Zhu, Shijian Lu
- Abstract要約: 我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 62.631176120557136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large amount of annotated training images is critical for training accurate
and robust deep network models but the collection of a large amount of
annotated training images is often time-consuming and costly. Image synthesis
alleviates this constraint by generating annotated training images
automatically by machines which has attracted increasing interest in the recent
deep learning research. We develop an innovative image synthesis technique that
composes annotated training images by realistically embedding foreground
objects of interest (OOI) into background images. The proposed technique
consists of two key components that in principle boost the usefulness of the
synthesized images in deep network training. The first is context-aware
semantic coherence which ensures that the OOI are placed around semantically
coherent regions within the background image. The second is harmonious
appearance adaptation which ensures that the embedded OOI are agreeable to the
surrounding background from both geometry alignment and appearance realism. The
proposed technique has been evaluated over two related but very different
computer vision challenges, namely, scene text detection and scene text
recognition. Experiments over a number of public datasets demonstrate the
effectiveness of our proposed image synthesis technique - the use of our
synthesized images in deep network training is capable of achieving similar or
even better scene text detection and scene text recognition performance as
compared with using real images.
- Abstract(参考訳): 高精度でロバストな深層ネットワークモデルのトレーニングには,大量のアノテートトレーニング画像が重要であるが,大量のアノテートトレーニング画像の収集には時間がかかり,コストがかかることが多い。
画像合成は、最近のディープラーニング研究に注目が集まっている機械による注釈付きトレーニング画像の自動生成によって、この制約を緩和する。
本研究では,前景オブジェクト(OOI)を背景画像にリアルに埋め込み,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
ひとつはコンテキストアウェアなセマンティックコヒーレンスで、背景イメージ内の意味的にコヒーレントな領域にooiが配置されることを保証する。
2つ目は調和的な外観適応であり、埋め込みooiが幾何アライメントと外観リアリズムの両方から周囲の背景に適合することを保証する。
提案手法は,シーンテキスト検出とシーンテキスト認識という,関連するが全く異なる2つのコンピュータビジョン課題に対して評価されている。
深層ネットワークトレーニングにおける合成画像の使用は、実画像と比較して、シーンテキストの検出とシーンテキスト認識性能を類似またはそれ以上に向上させることができる。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal
Contrastive Training [33.78990448307792]
画像テキスト検索は、視覚と言語間の意味的関係を理解するための中心的な問題である。
以前の作品では、全体像とテキストの粗い粒度の表現を単に学習するか、画像領域またはピクセルとテキストワードの対応を精巧に確立する。
本研究では、粗い表現学習ときめ細かい表現学習を統一した枠組みに組み合わせて、新しい視点から画像テキストの検索を行う。
論文 参考訳(メタデータ) (2023-06-15T00:19:13Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。