論文の概要: A U-Net and Transformer Pipeline for Multilingual Image Translation
- arxiv url: http://arxiv.org/abs/2510.23554v1
- Date: Mon, 27 Oct 2025 17:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.64374
- Title: A U-Net and Transformer Pipeline for Multilingual Image Translation
- Title(参考訳): 多言語画像翻訳のためのU-Net and Transformer Pipeline
- Authors: Siddharth Sahay, Radhika Agarwal,
- Abstract要約: 本稿では,テキスト検出用カスタムU-Net,テキスト認識用Tesseractエンジン,ニューラルネットワーク翻訳用T-Scratch Sequence-to-Sequence Transformer(NMT)を組み込んだエンドツーエンド多言語翻訳パイプラインを提案する。
本システムは、そのテキスト検出精度、テキスト認識品質、BLEUスコアによる翻訳性能に基づいて評価する。
- 参考スコア(独自算出の注目度): 0.28647133890966997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an end-to-end multilingual translation pipeline that integrates a custom U-Net for text detection, the Tesseract engine for text recognition, and a from-scratch sequence-to-sequence (Seq2Seq) Transformer for Neural Machine Translation (NMT). Our approach first utilizes a U-Net model, trained on a synthetic dataset , to accurately segment and detect text regions from an image. These detected regions are then processed by Tesseract to extract the source text. This extracted text is fed into a custom Transformer model trained from scratch on a multilingual parallel corpus spanning 5 languages. Unlike systems reliant on monolithic pre-trained models, our architecture emphasizes full customization and adaptability. The system is evaluated on its text detection accuracy, text recognition quality, and translation performance via BLEU scores. The complete pipeline demonstrates promising results, validating the viability of a custom-built system for translating text directly from images.
- Abstract(参考訳): 本稿では,テキスト検出用カスタムU-Net,テキスト認識用Tesseractエンジン,ニューラルネットワーク翻訳用Seq2Seq変換器(NMT)を組み合わせたエンドツーエンド多言語翻訳パイプラインを提案する。
提案手法はまず,合成データセットに基づいて訓練されたU-Netモデルを用いて,画像からテキスト領域を正確に抽出し,検出する。
これらの検出された領域はテッセラクトによって処理され、ソーステキストを抽出する。
この抽出されたテキストは、5つの言語にまたがる多言語並列コーパス上で、スクラッチからトレーニングされたカスタムトランスフォーマーモデルに入力される。
モノリシックな事前学習モデルに依存しているシステムとは異なり、私たちのアーキテクチャは完全なカスタマイズと適応性を強調しています。
本システムは、そのテキスト検出精度、テキスト認識品質、BLEUスコアによる翻訳性能に基づいて評価する。
完全なパイプラインは有望な結果を示し、画像から直接テキストを翻訳するカスタムビルドシステムの有効性を検証する。
関連論文リスト
- PRIM: Towards Practical In-Image Multilingual Machine Translation [48.357528732061105]
In-Image Machine Translation (IIMT)は、ある言語から別の言語へのテキストを含む画像を翻訳することを目的としている。
エンド・ツー・エンドIIMTの最近の研究は、単純な背景、単一のフォント、固定テキスト位置、バイリンガル翻訳を持つ合成データに頼っている。
本稿では,PRIMにおける実用条件の課題に対応するために,エンドツーエンドのVisTransモデルを提案する。
論文 参考訳(メタデータ) (2025-09-05T14:38:07Z) - EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。
本稿では,文字位置の符号化と位置の符号化手法を提案する。
我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文 参考訳(メタデータ) (2025-05-30T09:55:39Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Research on Multilingual Natural Scene Text Detection Algorithm [4.514028820667202]
自然界における多言語テキストの検出において,低精度と高難易度の問題に対処する多言語テキスト検出モデルを提案する。
そこで我々は,SFM Swin Transformer機能抽出ネットワークを導入し,異なる言語にわたる文字やフォントの検出において,モデルの堅牢性を高める。
そこで本研究では,より効率的なテキスト検出のためのグローバルな特徴を抽出し,保存するグローバルセマンティックブランチを提案する。
論文 参考訳(メタデータ) (2023-12-18T12:46:35Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Aggregated Text Transformer for Scene Text Detection [5.387121933662753]
本稿では,シーン画像中のテキストをマルチスケールの自己認識機構で表現するアグリゲートテキストTRansformer(ATTR)を提案する。
マルチスケール画像表現は頑健であり、様々なサイズのテキストコンテンツに関する豊富な情報を含んでいる。
提案手法は,各テキストインスタンスを個々のバイナリマスクとして表現することで,シーンテキストを検出する。
論文 参考訳(メタデータ) (2022-11-25T09:47:34Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。