論文の概要: STELLAR: Scene Text Editor for Low-Resource Languages and Real-World Data
- arxiv url: http://arxiv.org/abs/2511.09977v2
- Date: Fri, 14 Nov 2025 03:17:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:02.191819
- Title: STELLAR: Scene Text Editor for Low-Resource Languages and Real-World Data
- Title(参考訳): STELLAR:低リソース言語と実世界のデータのためのシーンテキストエディタ
- Authors: Yongdeuk Seo, Hyun-seok Min, Sungchul Choi,
- Abstract要約: Scene Text Editor for Low-Resource LAnguages and Real-world data。
STELLARは、言語適応型グリフエンコーダとマルチステージトレーニング戦略を通じて、信頼できる多言語編集を可能にする。
また,STIPLAR(Scene Text Image Pairs of Low-Resource lAnguages and Real-world data)という新たなデータセットを構築し,評価を行った。
- 参考スコア(独自算出の注目度): 3.622341086373503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Text Editing (STE) is the task of modifying text content in an image while preserving its visual style, such as font, color, and background. While recent diffusion-based approaches have shown improvements in visual quality, key limitations remain: lack of support for low-resource languages, domain gap between synthetic and real data, and the absence of appropriate metrics for evaluating text style preservation. To address these challenges, we propose STELLAR (Scene Text Editor for Low-resource LAnguages and Real-world data). STELLAR enables reliable multilingual editing through a language-adaptive glyph encoder and a multi-stage training strategy that first pre-trains on synthetic data and then fine-tunes on real images. We also construct a new dataset, STIPLAR(Scene Text Image Pairs of Low-resource lAnguages and Real-world data), for training and evaluation. Furthermore, we propose Text Appearance Similarity (TAS), a novel metric that assesses style preservation by independently measuring font, color, and background similarity, enabling robust evaluation even without ground truth. Experimental results demonstrate that STELLAR outperforms state-of-the-art models in visual consistency and recognition accuracy, achieving an average TAS improvement of 2.2% across languages over the baselines.
- Abstract(参考訳): STE(Scene Text Editing)は、フォント、色、背景などの視覚的スタイルを保ちながら、画像中のテキスト内容を変更するタスクである。
最近の拡散ベースのアプローチは、視覚的品質の改善を示しているが、重要な制限は、低リソース言語のサポートの欠如、合成データと実際のデータのドメインギャップ、テキストスタイルの保存を評価するための適切な指標の欠如である。
これらの課題に対処するため,STELLAR (Scene Text Editor for Low-Resource LAnguages and Real-world data)を提案する。
STELLARは、言語適応型グリフエンコーダと、まず合成データで事前訓練を行い、次に実画像で微調整を行うマルチステージトレーニング戦略を通じて、信頼できる多言語編集を可能にする。
また,STIPLAR(Scene Text Image Pairs of Low-Resource lAnguages and Real-world data)という新たなデータセットを構築し,評価を行った。
さらに,フォント,色,背景の類似度を独立に測定することで,スタイルの保存性を評価する新しい指標であるテキスト外観類似度(TAS)を提案する。
実験の結果、STELLARは視覚的一貫性と認識精度において最先端のモデルよりも優れており、ベースラインを越えて言語間で平均2.2%のTAS改善を実現している。
関連論文リスト
- Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。
この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。
本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-28T20:48:38Z) - TextSSR: Diffusion-based Data Synthesis for Scene Text Recognition [19.566553192778525]
シーンテキスト認識(STR)は、現実的でない合成トレーニングデータや、十分な実世界のデータを集めることの難しさに悩まされている。
テキスト認識訓練データを合成するための新しいパイプラインであるTextSSRを紹介する。
位置グリフ強調による領域中心のテキスト生成により精度を向上する。
周囲のテキストや背景からの文脈的ヒントを用いて、スタイルや外観生成を導くことでリアリズムを維持する。
論文 参考訳(メタデータ) (2024-12-02T05:26:25Z) - Text Image Generation for Low-Resource Languages with Dual Translation Learning [0.0]
本研究では,高リソース言語からの実際のテキスト画像のスタイルをエミュレートすることで,低リソース言語でテキスト画像を生成する手法を提案する。
このモデルのトレーニングには、2つの翻訳タスクが含まれており、平易なテキストイメージを合成または実際のテキストイメージに変換する。
生成したテキスト画像の精度と多様性を高めるために,2つのガイダンス手法を導入する。
論文 参考訳(メタデータ) (2024-09-26T11:23:59Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。