論文の概要: What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution
- arxiv url: http://arxiv.org/abs/2602.06450v1
- Date: Fri, 06 Feb 2026 07:23:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.279228
- Title: What Is Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution
- Title(参考訳): シーンテキスト認識のための合成データとは何か? -多変量シミュレーションと自己進化を用いた強力な合成エンジン-
- Authors: Xingsong Ye, Yongkun Du, JiaXin Zhang, Chen Li, Jing LYU, Zhineng Chen,
- Abstract要約: 私たちは、挑戦的なサンプルの結合をカバーするテキストを合成する強力なデータエンジンであるUnionSTを紹介します。
次に,課題シナリオのシミュレーションを改良した大規模合成データセットUnionST-Sを構築した。
UnionST-Sでトレーニングされたモデルは、既存の合成データセットよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 21.806975276583174
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-scale and categorical-balanced text data is essential for training effective Scene Text Recognition (STR) models, which is hard to achieve when collecting real data. Synthetic data offers a cost-effective and perfectly labeled alternative. However, its performance often lags behind, revealing a significant domain gap between real and current synthetic data. In this work, we systematically analyze mainstream rendering-based synthetic datasets and identify their key limitations: insufficient diversity in corpus, font, and layout, which restricts their realism in complex scenarios. To address these issues, we introduce UnionST, a strong data engine synthesizes text covering a union of challenging samples and better aligns with the complexity observed in the wild. We then construct UnionST-S, a large-scale synthetic dataset with improved simulations in challenging scenarios. Furthermore, we develop a self-evolution learning (SEL) framework for effective real data annotation. Experiments show that models trained on UnionST-S achieve significant improvements over existing synthetic datasets. They even surpass real-data performance in certain scenarios. Moreover, when using SEL, the trained models achieve competitive performance by only seeing 9% of real data labels.
- Abstract(参考訳): 大規模かつ分類的バランスの取れたテキストデータは,実データ収集時に達成し難い,効果的なシーンテキスト認識(STR)モデルの訓練に不可欠である。
合成データはコスト効率が高く、完全にラベル付けされた代替手段を提供する。
しかし、その性能はしばしば遅れており、実際の合成データと現在の合成データの間に大きな領域ギャップがあることが明らかになっている。
本研究では、主流のレンダリングに基づく合成データセットを体系的に分析し、コーパス、フォント、レイアウトの多様性が不十分で、複雑なシナリオにおける現実性を制限する。
これらの問題に対処するために、強力なデータエンジンであるUnionSTを紹介します。
次に,課題シナリオのシミュレーションを改良した大規模合成データセットUnionST-Sを構築した。
さらに,効率的な実データアノテーションのための自己進化学習(SEL)フレームワークを開発する。
UnionST-Sでトレーニングされたモデルは、既存の合成データセットよりも大幅に改善されている。
特定のシナリオでは、実際のデータパフォーマンスを超えます。
さらに、SELを使用する場合、トレーニングされたモデルは、実際のデータラベルの9%しか見られないことで、競争性能を達成する。
関連論文リスト
- Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - AI-Generated Fall Data: Assessing LLMs and Diffusion Model for Wearable Fall Detection [3.5912245880418125]
転倒検知システムの訓練は、特に高齢者の実際の転倒データの不足により困難である。
本研究では,現実的な転倒シナリオのシミュレーションにおいて,テキスト・ツー・モーションモデルとテキスト・ツー・テキストモデルを評価する。
合成データセットを生成し、4つの実世界のベースラインデータセットと統合し、秋検出性能への影響を評価する。
論文 参考訳(メタデータ) (2025-05-07T02:30:33Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Semi-synthesis: A fast way to produce effective datasets for stereo
matching [16.602343511350252]
現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。
実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
論文 参考訳(メタデータ) (2021-01-26T14:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。