論文の概要: Scene Text Recognition with Semantics
- arxiv url: http://arxiv.org/abs/2210.10836v1
- Date: Wed, 19 Oct 2022 18:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:56:33.965544
- Title: Scene Text Recognition with Semantics
- Title(参考訳): セマンティックスを用いたシーンテキスト認識
- Authors: Joshua Cesare Placidi, Yishu Miao, Zixu Wang, Lucia Specia
- Abstract要約: Scene Text Recognition(STR)モデルは、テキストイメージを最小限のノイズで表示するベンチマークデータセットにおいて、近年、高いパフォーマンスを実現している。
従来のSTR認識パイプラインは、トリミングされたイメージを唯一の入力として取り、現在存在する文字を識別しようとする。
本稿では,より広い場面からの意味情報を用いて文脈予測を行う。
- 参考スコア(独自算出の注目度): 44.82878468172456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Text Recognition (STR) models have achieved high performance in recent
years on benchmark datasets where text images are presented with minimal noise.
Traditional STR recognition pipelines take a cropped image as sole input and
attempt to identify the characters present. This infrastructure can fail in
instances where the input image is noisy or the text is partially obscured.
This paper proposes using semantic information from the greater scene to
contextualise predictions. We generate semantic vectors using object tags and
fuse this information into a transformer-based architecture. The results
demonstrate that our multimodal approach yields higher performance than
traditional benchmark models, particularly on noisy instances.
- Abstract(参考訳): 近年、テキスト画像が最小限のノイズで提示されるベンチマークデータセットでは、シーンテキスト認識(str)モデルが高いパフォーマンスを達成している。
従来のstr認識パイプラインでは、クロッピング画像を唯一の入力として、存在する文字の識別を試みる。
このインフラストラクチャは、入力イメージがノイズである、あるいはテキストが部分的にあいまいなインスタンスで失敗する可能性がある。
本稿では,より広い場面からの意味情報を用いて文脈予測を行う。
我々はオブジェクトタグを用いて意味ベクトルを生成し、その情報をトランスフォーマーベースのアーキテクチャに融合する。
その結果、マルチモーダルアプローチは従来のベンチマークモデル、特にノイズの多いインスタンスよりも高いパフォーマンスを実現しています。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - Aggregated Text Transformer for Scene Text Detection [5.387121933662753]
本稿では,シーン画像中のテキストをマルチスケールの自己認識機構で表現するアグリゲートテキストTRansformer(ATTR)を提案する。
マルチスケール画像表現は頑健であり、様々なサイズのテキストコンテンツに関する豊富な情報を含んでいる。
提案手法は,各テキストインスタンスを個々のバイナリマスクとして表現することで,シーンテキストを検出する。
論文 参考訳(メタデータ) (2022-11-25T09:47:34Z) - Few Could Be Better Than All: Feature Sampling and Grouping for Scene
Text Detection [47.820683360286786]
本稿では,シーンテキスト検出のためのトランスフォーマーアーキテクチャを提案する。
まず、フォアグラウンドテキストに非常に関係のある、あらゆるスケールでいくつかの代表的特徴を選択します。
各特徴群がテキストインスタンスに対応するため、そのバウンディングボックスは後処理操作なしで容易に得ることができる。
論文 参考訳(メタデータ) (2022-03-29T04:02:31Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。