論文の概要: Towards Scene-Text to Scene-Text Translation
- arxiv url: http://arxiv.org/abs/2308.03024v1
- Date: Sun, 6 Aug 2023 05:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:09:31.248482
- Title: Towards Scene-Text to Scene-Text Translation
- Title(参考訳): シーンテキストからシーンテキストへの翻訳に向けて
- Authors: Onkar Susladkar, Prajwal Gatti, Anand Mishra
- Abstract要約: 本研究では,シーンテキストをソース言語からターゲット言語に翻訳する作業について検討する。
視覚翻訳は、シーンテキストの認識と翻訳だけでなく、翻訳された画像の生成も含む。
本稿では,新しい条件付き拡散法であるVTNetを紹介する。
- 参考スコア(独自算出の注目度): 2.243832625209014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we study the task of ``visually" translating scene text from a
source language (e.g., English) to a target language (e.g., Chinese). Visual
translation involves not just the recognition and translation of scene text but
also the generation of the translated image that preserves visual features of
the text, such as font, size, and background. There are several challenges
associated with this task, such as interpolating font to unseen characters and
preserving text size and the background. To address these, we introduce VTNet,
a novel conditional diffusion-based method. To train the VTNet, we create a
synthetic cross-lingual dataset of 600K samples of scene text images in six
popular languages, including English, Hindi, Tamil, Chinese, Bengali, and
German. We evaluate the performance of VTnet through extensive experiments and
comparisons to related methods. Our model also surpasses the previous
state-of-the-art results on the conventional scene-text editing benchmarks.
Further, we present rigorous qualitative studies to understand the strengths
and shortcomings of our model. Results show that our approach generalizes well
to unseen words and fonts. We firmly believe our work can benefit real-world
applications, such as text translation using a phone camera and translating
educational materials. Code and data will be made publicly available.
- Abstract(参考訳): 本研究では,シーンテキストをソース言語(例えば英語)からターゲット言語(例えば中国語)へ「視覚的」に翻訳するタスクについて検討する。
視覚的翻訳は、シーンテキストの認識と翻訳だけでなく、フォント、サイズ、背景といったテキストの視覚的特徴を保存する翻訳画像の生成も含んでいる。
このタスクには、フォントを未知の文字に補間したり、テキストサイズや背景を保存するなど、いくつかの課題がある。
そこで本研究では,新しい条件拡散法であるVTNetを紹介する。
VTNetをトレーニングするために、英語、ヒンディー語、タミル語、中国語、ベンガル語、ドイツ語を含む6つのポピュラー言語で600Kのシーンテキスト画像の合成言語間データセットを作成しました。
広汎な実験と関連する手法との比較により,VTnetの性能を評価する。
また,従来のシーンテキスト編集ベンチマークでは,従来の最新結果を上回っていた。
さらに,モデルの強みと欠点を理解するために,厳密な質的研究を行う。
その結果,本手法は未認識の単語やフォントによく適用できることがわかった。
私たちの仕事は、電話カメラを使ったテキスト翻訳や教育資料の翻訳など、現実世界のアプリケーションに利益をもたらすと強く信じています。
コードとデータは公開される予定だ。
関連論文リスト
- Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Weakly Supervised Scene Text Generation for Low-resource Languages [19.243705770491577]
シーンテキスト認識モデルのトレーニングには,多数の注釈付きトレーニング画像が不可欠である。
既存のシーンテキスト生成手法は、典型的には大量のペアデータに依存しており、低リソース言語では入手が困難である。
本稿では,いくつかの認識レベルラベルを弱監督として活用する,弱教師付きシーンテキスト生成手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T15:26:06Z) - Learning to Imagine: Visually-Augmented Natural Language Generation [73.65760028876943]
本稿では,事前学習型言語モデル(PLM)を視覚的に拡張した自然言語gEnerationのために学習する手法を提案する。
拡散モデルを用いて、入力テキストに条件付き高品質な画像を合成する。
段落全体に対して1つの画像のみを生成するのではなく、各文に対して合成を行う。
論文 参考訳(メタデータ) (2023-05-26T13:59:45Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - TextStyleBrush: Transfer of Text Aesthetics from a Single Example [16.29689649632619]
本稿では,その外観のあらゆる面からテキスト画像の内容を切り離すための新しいアプローチを提案する。
我々はこの混乱を自己管理的に学ぶ。
以前は特殊な手法で処理されていた異なるテキスト領域で結果を示す。
論文 参考訳(メタデータ) (2021-06-15T19:28:49Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。