論文の概要: Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation
- arxiv url: http://arxiv.org/abs/2308.03024v3
- Date: Mon, 2 Sep 2024 05:51:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:44:54.610759
- Title: Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation
- Title(参考訳): 私の言葉で世界を示す: シーンテキストからシーンテキストへの翻訳のための最初のベースラインを確立する
- Authors: Shreyas Vaidya, Arvind Kumar Sharma, Prajwal Gatti, Anand Mishra,
- Abstract要約: 本研究では,ソース言語からターゲット言語へのシーンテキストの視覚的翻訳作業について検討する。
視覚翻訳は、シーンテキストの認識と翻訳だけでなく、翻訳された画像の生成も含む。
本稿では、シーンテキスト認識、機械翻訳、シーンテキスト合成のための最先端モジュールを組み合わせた視覚翻訳のためのケースケードフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.9085074258303771
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we study the task of ``visually'' translating scene text from a source language (e.g., Hindi) to a target language (e.g., English). Visual translation involves not just the recognition and translation of scene text but also the generation of the translated image that preserves visual features of the source scene text, such as font, size, and background. There are several challenges associated with this task, such as translation with limited context, deciding between translation and transliteration, accommodating varying text lengths within fixed spatial boundaries, and preserving the font and background styles of the source scene text in the target language. To address this problem, we make the following contributions: (i) We study visual translation as a standalone problem for the first time in the literature. (ii) We present a cascaded framework for visual translation that combines state-of-the-art modules for scene text recognition, machine translation, and scene text synthesis as a baseline for the task. (iii) We propose a set of task-specific design enhancements to design a variant of the baseline to obtain performance improvements. (iv) Currently, the existing related literature lacks any comprehensive performance evaluation for this novel task. To fill this gap, we introduce several automatic and user-assisted evaluation metrics designed explicitly for evaluating visual translation. Further, we evaluate presented baselines for translating scene text between Hindi and English. Our experiments demonstrate that although we can effectively perform visual translation over a large collection of scene text images, the presented baseline only partially addresses challenges posed by visual translation tasks. We firmly believe that this new task and the limitations of existing models, as reported in this paper, should encourage further research in visual translation.
- Abstract(参考訳): 本研究では,ソース言語 (e g , Hindi) からターゲット言語 (e g , English) への「視覚的」なシーンテキストの翻訳作業について検討する。
視覚翻訳は、シーンテキストの認識と翻訳だけでなく、フォント、サイズ、背景といった元のシーンテキストの視覚的特徴を保存する翻訳画像の生成も含む。
このタスクには、限られた文脈での翻訳、翻訳と文字の翻訳の決定、固定された空間境界内での様々なテキストの長さの調整、ターゲット言語におけるソースシーンテキストのフォントと背景スタイルの保存など、いくつかの課題がある。
この問題に対処するため、以下の貢献をしている。
(i)本論文では,視覚翻訳を単独問題として初めて考察した。
(II)シーンテキスト認識,機械翻訳,シーンテキスト合成のための最先端モジュールをタスクのベースラインとして組み合わせた視覚翻訳フレームワークを提案する。
(3) 性能改善のために, ベースラインの変種を設計するためのタスク固有の設計拡張セットを提案する。
(四)現時点の文献では、この新たな課題に対する総合的な性能評価が欠如している。
このギャップを埋めるために、視覚翻訳を明示的に評価するための自動的およびユーザ支援的な評価指標をいくつか導入する。
さらに,ヒンディー語と英語のシーンテキストを翻訳するための提示ベースラインの評価を行った。
本実験は,シーンテキスト画像の集合体上で視覚的翻訳を効果的に行うことができるが,提示されたベースラインは視覚的翻訳タスクによって生じる課題に部分的に対処するのみであることを示す。
我々は,この新たな課題と既存モデルの限界が,視覚翻訳のさらなる研究を促進すると強く信じている。
関連論文リスト
- Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering [0.5803309695504829]
テキストベースのVQAの主な課題は、シーンテキストの意味と情報を活用することである。
近年の研究では、画像中のシーンテキストの空間的情報を考慮することでこの問題に対処している。
ベトナム語で書かれたシーンテキストからの情報を効果的に活用する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:00:03Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - Scene Graph as Pivoting: Inference-time Image-free Unsupervised
Multimodal Machine Translation with Visual Scene Hallucination [88.74459704391214]
本研究では,より現実的なマルチモーダル機械翻訳(UMMT)について検討する。
視覚・言語シーングラフ(SG)を用いて,入力画像とテキストを表現し,その微細な視覚言語特徴が意味論の全体的理解を確実にする。
教師なし翻訳学習には,SG-pivotingに基づく学習目的がいくつか導入されている。
提案手法は,タスクとセットアップにおいて,BLEUスコアの有意な向上により,最良性能のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-20T18:17:20Z) - Augmented Transformers with Adaptive n-grams Embedding for Multilingual
Scene Text Recognition [10.130342722193204]
本稿では,n-gramを埋め込み,言語間の整合性(TANGER)を付加した拡張トランスアーキテクチャを提案する。
TANGERは、単一のパッチを埋め込んだ1次変換器と、適応的なn-gramの埋め込みを備えた補助変換器で構成されている。
言語間の整合性は、言語識別と文脈コヒーレンススコアの両方を考慮した損失関数によって達成される。
論文 参考訳(メタデータ) (2023-02-28T02:37:30Z) - ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval [66.66400551173619]
単一$textbfVi$sionでクロスモーダル検索シナリオを統合するためのフルトランスフォーマーアーキテクチャを提案する。
画像-テキストペアと融合-テキストペアの両方を共通モード空間に埋め込むために、二重対照的な学習損失を発生させる。
実験の結果、ViSTAはシーンテキスト認識検索タスクに対して少なくとも$bf8.4%のRecall@1で他のメソッドよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-03-31T03:40:21Z) - Simultaneous Machine Translation with Visual Context [42.88121241096681]
同時機械翻訳(SiMT)は、連続的な入力テキストストリームを低レイテンシで最高の品質で別の言語に変換することを目的としている。
我々は、様々なマルチモーダルアプローチと視覚的特徴が最先端のSiMTフレームワークに与える影響を分析する。
論文 参考訳(メタデータ) (2020-09-15T18:19:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。