論文の概要: Augmented Transformers with Adaptive n-grams Embedding for Multilingual
Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2302.14261v1
- Date: Tue, 28 Feb 2023 02:37:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:24:34.035352
- Title: Augmented Transformers with Adaptive n-grams Embedding for Multilingual
Scene Text Recognition
- Title(参考訳): 多言語シーン認識のための適応n-gram埋め込みによる拡張トランス
- Authors: Xueming Yan, Zhihang Fang, Yaochu Jin
- Abstract要約: 本稿では,n-gramを埋め込み,言語間の整合性(TANGER)を付加した拡張トランスアーキテクチャを提案する。
TANGERは、単一のパッチを埋め込んだ1次変換器と、適応的なn-gramの埋め込みを備えた補助変換器で構成されている。
言語間の整合性は、言語識別と文脈コヒーレンススコアの両方を考慮した損失関数によって達成される。
- 参考スコア(独自算出の注目度): 10.130342722193204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While vision transformers have been highly successful in improving the
performance in image-based tasks, not much work has been reported on applying
transformers to multilingual scene text recognition due to the complexities in
the visual appearance of multilingual texts. To fill the gap, this paper
proposes an augmented transformer architecture with n-grams embedding and
cross-language rectification (TANGER). TANGER consists of a primary transformer
with single patch embeddings of visual images, and a supplementary transformer
with adaptive n-grams embeddings that aims to flexibly explore the potential
correlations between neighbouring visual patches, which is essential for
feature extraction from multilingual scene texts. Cross-language rectification
is achieved with a loss function that takes into account both language
identification and contextual coherence scoring. Extensive comparative studies
are conducted on four widely used benchmark datasets as well as a new
multilingual scene text dataset containing Indonesian, English, and Chinese
collected from tourism scenes in Indonesia. Our experimental results
demonstrate that TANGER is considerably better compared to the
state-of-the-art, especially in handling complex multilingual scene texts.
- Abstract(参考訳): 視覚変換器は画像ベースタスクの性能向上に成功しているが、多言語テキストの視覚的外観の複雑さのため、多言語シーンテキスト認識にトランスフォーマーを適用する作業はあまり行われていない。
このギャップを埋めるため,本論文ではn-grams embedded and cross-language rectification (tanger) を用いた拡張トランスフォーマーアーキテクチャを提案する。
TANGERは、視覚画像の単一パッチ埋め込みを持つ一次変換器と、多言語シーンテキストからの特徴抽出に不可欠な近隣の視覚パッチ間の潜在的な相関を柔軟に探求することを目的とした適応的なn-gramの埋め込みを持つ補助変換器からなる。
言語交叉は、言語識別と文脈的コヒーレンススコアの両方を考慮した損失関数によって達成される。
4つのベンチマークデータセットと、インドネシアの観光シーンから収集されたインドネシア語、英語、中国語を含む新しい多言語シーンテキストデータセットについて、広範な比較研究が行われている。
実験の結果,複雑な多言語シーンのテキストを扱う場合,タンガーは最先端に比べてかなり優れていることがわかった。
関連論文リスト
- Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - Show Me the World in My Language: Establishing the First Baseline for Scene-Text to Scene-Text Translation [1.9085074258303771]
本研究では,ソース言語からターゲット言語へのシーンテキストの視覚的翻訳作業について検討する。
視覚翻訳は、シーンテキストの認識と翻訳だけでなく、翻訳された画像の生成も含む。
本稿では、シーンテキスト認識、機械翻訳、シーンテキスト合成のための最先端モジュールを組み合わせた視覚翻訳のためのケースケードフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-06T05:23:25Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。