論文の概要: Learn to Augment: Joint Data Augmentation and Network Optimization for
Text Recognition
- arxiv url: http://arxiv.org/abs/2003.06606v1
- Date: Sat, 14 Mar 2020 11:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 20:20:43.908008
- Title: Learn to Augment: Joint Data Augmentation and Network Optimization for
Text Recognition
- Title(参考訳): Augmentを学ぶ: テキスト認識のためのデータ拡張とネットワーク最適化
- Authors: Canjie Luo, Yuanzhi Zhu, Lianwen Jin, Yongpan Wang
- Abstract要約: 堅牢な認識モデルのトレーニングには、可能な限り多様性をカバーするために大量のデータが必要である。
本稿では,テキスト画像拡張のための新しい手法を提案する。
カスタム・フィデューシャル・ポイントのセットを使用することで、提案手法は柔軟で制御可能である。
- 参考スコア(独自算出の注目度): 44.773194285059645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten text and scene text suffer from various shapes and distorted
patterns. Thus training a robust recognition model requires a large amount of
data to cover diversity as much as possible. In contrast to data collection and
annotation, data augmentation is a low cost way. In this paper, we propose a
new method for text image augmentation. Different from traditional augmentation
methods such as rotation, scaling and perspective transformation, our proposed
augmentation method is designed to learn proper and efficient data augmentation
which is more effective and specific for training a robust recognizer. By using
a set of custom fiducial points, the proposed augmentation method is flexible
and controllable. Furthermore, we bridge the gap between the isolated processes
of data augmentation and network optimization by joint learning. An agent
network learns from the output of the recognition network and controls the
fiducial points to generate more proper training samples for the recognition
network. Extensive experiments on various benchmarks, including regular scene
text, irregular scene text and handwritten text, show that the proposed
augmentation and the joint learning methods significantly boost the performance
of the recognition networks. A general toolkit for geometric augmentation is
available.
- Abstract(参考訳): 手書きのテキストやシーンのテキストは、様々な形や歪んだパターンに苦しむ。
したがって、堅牢な認識モデルをトレーニングするには、可能な限り多様性をカバーするために大量のデータが必要である。
データ収集やアノテーションとは対照的に、データ拡張は低コストの方法です。
本稿では,テキスト画像拡張のための新しい手法を提案する。
ローテーションやスケーリング,パースペクティブ変換といった従来の拡張手法とは違い,本提案手法は,より効率的かつ効率的なデータ拡張を学習し,ロバストな認識器の訓練に特化している。
カスタムfiducial pointのセットを使用することで,提案手法は柔軟かつ制御可能である。
さらに,データ拡張の分離プロセスと協調学習によるネットワーク最適化のギャップを橋渡しする。
エージェントネットワークは、認識ネットワークの出力から学習し、フィデューシャルポイントを制御することにより、認識ネットワークのより適切なトレーニングサンプルを生成する。
通常のシーンテキスト,不規則なシーンテキスト,手書きテキストなど,さまざまなベンチマークの広範な実験により,提案手法が拡張され,共同学習手法が認識ネットワークの性能を大幅に向上することが示された。
幾何学的拡張のための一般的なツールキットが利用可能である。
関連論文リスト
- Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment [0.0]
Retrieval-Augmented Generation (RAG) システムは、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する。
本稿では,これらのギャップを効率的に埋める汎用投影法を提案する。
私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
論文 参考訳(メタデータ) (2024-10-30T20:28:10Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Learning-Based Biharmonic Augmentation for Point Cloud Classification [79.13962913099378]
Biharmonic Augmentation (BA)は、新しくて効率的なデータ拡張技術である。
BAは、既存の3D構造にスムーズな非剛性変形を与えることにより、点雲データを多様化する。
本稿では,先進的なオンライン強化システムであるAdvTuneについて紹介する。
論文 参考訳(メタデータ) (2023-11-10T14:04:49Z) - From Text to Mask: Localizing Entities Using the Attention of Text-to-Image Diffusion Models [38.14123683674355]
本稿では,テキスト・画像拡散モデルの認知ネットワークにおける注意機構を利用する手法を提案する。
そこで我々はPascal VOC 2012 と Microsoft COCO 2014 のセマンティックセグメンテーションを弱教師付きで評価した。
本研究は,セグメンテーションの拡散モデルに隠された豊富なマルチモーダル知識を抽出する方法を明らかにする。
論文 参考訳(メタデータ) (2023-09-08T04:10:01Z) - Multimodal Data Augmentation for Image Captioning using Diffusion Models [12.221685807426264]
本研究では,Stable Diffusionと呼ばれるテキスト・ツー・イメージ・モデルを利用してトレーニングセットを拡張するデータ拡張手法を提案する。
MS COCOデータセットの実験は、いくつかのベンチマーク手法に対する我々のアプローチの利点を実証している。
生成されたデータを意図的にフィルタリングした後、トレーニング効率及び有効性に関するさらなる改善が得られる。
論文 参考訳(メタデータ) (2023-05-03T01:57:33Z) - AugGPT: Leveraging ChatGPT for Text Data Augmentation [59.76140039943385]
本稿では,ChatGPT(AugGPT)に基づくテキストデータ拡張手法を提案する。
AugGPTはトレーニングサンプルの各文を、概念的には似ているが意味的に異なる複数のサンプルに言い換える。
数ショットの学習テキスト分類タスクの実験結果は、提案したAugGPTアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-25T06:58:16Z) - Joint Data and Feature Augmentation for Self-Supervised Representation
Learning on Point Clouds [4.723757543677507]
ユークリッド空間におけるデータ拡張と特徴空間における特徴拡張を組み合わせた融合コントラスト学習フレームワークを提案する。
提案手法の伝達性を検証するため,広範囲な対象分類実験と対象部分分割実験を行う。
実験の結果,提案フレームワークは,自己指導型でポイントクラウド表現を学習する上で有効であることが示された。
論文 参考訳(メタデータ) (2022-11-02T14:58:03Z) - TeachAugment: Data Augmentation Optimization Using Teacher Knowledge [11.696069523681178]
本稿では,TeachAugment と呼ばれる逆戦略に基づくデータ拡張最適化手法を提案する。
画像分類,セマンティックセグメンテーション,教師なし表現学習において,TeachAugmentは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-25T06:22:51Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Context Decoupling Augmentation for Weakly Supervised Semantic
Segmentation [53.49821324597837]
微調整されたセマンティックセグメンテーションは、近年深く研究されている困難な問題です。
本稿では、オブジェクトが現れる固有のコンテキストを変更する Context Decoupling Augmentation (CDA) メソッドを紹介します。
提案手法の有効性を検証するため, PASCAL VOC 2012データセットにいくつかの代替ネットワークアーキテクチャを用いた広範な実験を行い, CDAが様々なWSSS手法を新たな最先端技術に拡張できることを実証した。
論文 参考訳(メタデータ) (2021-03-02T15:05:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。