Fugu-MT 論文翻訳(概要): An Effective Data Augmentation Method by Asking Questions about Scene Text Images

論文の概要: An Effective Data Augmentation Method by Asking Questions about Scene Text Images

arxiv url: http://arxiv.org/abs/2603.03580v1
Date: Tue, 03 Mar 2026 23:18:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.119402
Title: An Effective Data Augmentation Method by Asking Questions about Scene Text Images
Title（参考訳）: シーンテキスト画像に対する質問による効果的なデータ拡張手法
Authors: Xu Yao, Lei Kang,
Abstract要約: 本稿では,構造化質問応答タスクによるOCRトレーニングを強化するVQAにインスパイアされたデータ拡張フレームワークを提案する。各画像テキストペアに対して、存在、位置、頻度といった文字レベルの属性を探索する自然言語質問を生成する。これらの補助的なタスクはよりきめ細かい推論を奨励し、OCRモデルは視覚的特徴をテキストクエリと整列させ、画像と質問を共同で推論する。
参考スコア（独自算出の注目度）: 5.189562992500781
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene text recognition (STR) and handwritten text recognition (HTR) face significant challenges in accurately transcribing textual content from images into machine-readable formats. Conventional OCR models often predict transcriptions directly, which limits detailed reasoning about text structure. We propose a VQA-inspired data augmentation framework that strengthens OCR training through structured question-answering tasks. For each image-text pair, we generate natural-language questions probing character-level attributes such as presence, position, and frequency, with answers derived from ground-truth text. These auxiliary tasks encourage finer-grained reasoning, and the OCR model aligns visual features with textual queries to jointly reason over images and questions. Experiments on WordArt and Esposalles datasets show consistent improvements over baseline models, with significant reductions in both CER and WER. Our code is publicly available at https://github.com/xuyaooo/DataAugOCR.
Abstract（参考訳）: シーンテキスト認識(STR)と手書きテキスト認識(HTR)は、画像からテキストコンテンツを機械可読フォーマットに正確に翻訳する上で、重大な課題に直面している。従来のOCRモデルは、テキスト構造に関する詳細な推論を制限する転写を直接予測することが多い。本稿では,構造化質問応答タスクによるOCRトレーニングを強化するVQAにインスパイアされたデータ拡張フレームワークを提案する。画像とテキストのペアごとに,文字レベルの属性(存在,位置,頻度など)を探索する自然言語質問を生成する。これらの補助的なタスクはよりきめ細かい推論を奨励し、OCRモデルは視覚的特徴をテキストクエリと整列させ、画像と質問を共同で推論する。 WordArtとEsposallesデータセットの実験では、ベースラインモデルよりも一貫した改善が見られ、CERとWERのどちらも大幅に削減された。私たちのコードはhttps://github.com/xuyaooo/DataAugOCRで公開されています。

関連論文リスト

TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文参考訳（メタデータ） (2025-12-10T06:18:30Z)
InstructOCR: Instruction Boosting Scene Text Spotting [10.724187109801251]
InstructOCRは、革新的な命令ベースのシーンテキストスポッティングモデルである。私たちのフレームワークは、トレーニングと推論にテキストエンコーダと画像エンコーダの両方を使用します。広く使われているベンチマークで最先端の結果が得られます。
論文参考訳（メタデータ） (2024-12-20T03:23:26Z)
See then Tell: Enhancing Key Information Extraction with Vision Grounding [32.445618057103324]
STNet(See then Tell Net)は、視覚基盤の正確な答えを提供するために設計された、新しいエンドツーエンドモデルである。モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。提案手法は,KIE性能の大幅な向上を実証し,公開データセットの最先端化を実現している。
論文参考訳（メタデータ） (2024-09-29T06:21:05Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。 ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文参考訳（メタデータ） (2024-03-01T06:13:53Z)
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文参考訳（メタデータ） (2023-06-15T12:29:42Z)
TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文参考訳（メタデータ） (2023-05-18T10:16:19Z)
Look, Read and Ask: Learning to Ask Questions by Reading Text in Images [3.3972119795940525]
テキストベースの視覚的質問生成(TextVQG)の新たな問題を提案する。テキストVQGに対処するために,OCR で一貫した視覚的質問生成モデルを提案する。
論文参考訳（メタデータ） (2022-11-23T13:52:46Z)
TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文参考訳（メタデータ） (2021-05-12T07:50:42Z)
TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。 TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文参考訳（メタデータ） (2020-12-08T18:55:21Z)
Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。 SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文参考訳（メタデータ） (2020-06-01T07:07:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。