論文の概要: Towards Scene-Text to Scene-Text Translation
- arxiv url: http://arxiv.org/abs/2308.03024v1
- Date: Sun, 6 Aug 2023 05:23:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:09:31.248482
- Title: Towards Scene-Text to Scene-Text Translation
- Title(参考訳): シーンテキストからシーンテキストへの翻訳に向けて
- Authors: Onkar Susladkar, Prajwal Gatti, Anand Mishra
- Abstract要約: 本研究では,シーンテキストをソース言語からターゲット言語に翻訳する作業について検討する。
視覚翻訳は、シーンテキストの認識と翻訳だけでなく、翻訳された画像の生成も含む。
本稿では,新しい条件付き拡散法であるVTNetを紹介する。
- 参考スコア(独自算出の注目度): 2.243832625209014
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we study the task of ``visually" translating scene text from a
source language (e.g., English) to a target language (e.g., Chinese). Visual
translation involves not just the recognition and translation of scene text but
also the generation of the translated image that preserves visual features of
the text, such as font, size, and background. There are several challenges
associated with this task, such as interpolating font to unseen characters and
preserving text size and the background. To address these, we introduce VTNet,
a novel conditional diffusion-based method. To train the VTNet, we create a
synthetic cross-lingual dataset of 600K samples of scene text images in six
popular languages, including English, Hindi, Tamil, Chinese, Bengali, and
German. We evaluate the performance of VTnet through extensive experiments and
comparisons to related methods. Our model also surpasses the previous
state-of-the-art results on the conventional scene-text editing benchmarks.
Further, we present rigorous qualitative studies to understand the strengths
and shortcomings of our model. Results show that our approach generalizes well
to unseen words and fonts. We firmly believe our work can benefit real-world
applications, such as text translation using a phone camera and translating
educational materials. Code and data will be made publicly available.
- Abstract(参考訳): 本研究では,シーンテキストをソース言語(例えば英語)からターゲット言語(例えば中国語)へ「視覚的」に翻訳するタスクについて検討する。
視覚的翻訳は、シーンテキストの認識と翻訳だけでなく、フォント、サイズ、背景といったテキストの視覚的特徴を保存する翻訳画像の生成も含んでいる。
このタスクには、フォントを未知の文字に補間したり、テキストサイズや背景を保存するなど、いくつかの課題がある。
そこで本研究では,新しい条件拡散法であるVTNetを紹介する。
VTNetをトレーニングするために、英語、ヒンディー語、タミル語、中国語、ベンガル語、ドイツ語を含む6つのポピュラー言語で600Kのシーンテキスト画像の合成言語間データセットを作成しました。
広汎な実験と関連する手法との比較により,VTnetの性能を評価する。
また,従来のシーンテキスト編集ベンチマークでは,従来の最新結果を上回っていた。
さらに,モデルの強みと欠点を理解するために,厳密な質的研究を行う。
その結果,本手法は未認識の単語やフォントによく適用できることがわかった。
私たちの仕事は、電話カメラを使ったテキスト翻訳や教育資料の翻訳など、現実世界のアプリケーションに利益をもたらすと強く信じています。
コードとデータは公開される予定だ。
関連論文リスト
- Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering [0.5803309695504829]
テキストベースのVQAの主な課題は、シーンテキストの意味と情報を活用することである。
近年の研究では、画像中のシーンテキストの空間的情報を考慮することでこの問題に対処している。
ベトナム語で書かれたシーンテキストからの情報を効果的に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:00:03Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Augmented Transformers with Adaptive n-grams Embedding for Multilingual
Scene Text Recognition [10.130342722193204]
本稿では,n-gramを埋め込み,言語間の整合性(TANGER)を付加した拡張トランスアーキテクチャを提案する。
TANGERは、単一のパッチを埋め込んだ1次変換器と、適応的なn-gramの埋め込みを備えた補助変換器で構成されている。
言語間の整合性は、言語識別と文脈コヒーレンススコアの両方を考慮した損失関数によって達成される。
論文 参考訳(メタデータ) (2023-02-28T02:37:30Z) - ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval [66.66400551173619]
単一$textbfVi$sionでクロスモーダル検索シナリオを統合するためのフルトランスフォーマーアーキテクチャを提案する。
画像-テキストペアと融合-テキストペアの両方を共通モード空間に埋め込むために、二重対照的な学習損失を発生させる。
実験の結果、ViSTAはシーンテキスト認識検索タスクに対して少なくとも$bf8.4%のRecall@1で他のメソッドよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-31T03:40:21Z) - Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文 参考訳(メタデータ) (2020-09-15T18:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。