論文の概要: Textual Visual Semantic Dataset for Text Spotting
- arxiv url: http://arxiv.org/abs/2004.10349v1
- Date: Tue, 21 Apr 2020 23:58:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 05:53:34.289980
- Title: Textual Visual Semantic Dataset for Text Spotting
- Title(参考訳): テキストスポッティングのためのテキスト視覚意味データセット
- Authors: Ahmed Sabir, Francesc Moreno-Noguer and Llu\'is Padr\'o
- Abstract要約: 野生のテキストスポッティングは、画像に現れるテキストを検出して認識する。
これは、テキストが現れるコンテキストの複雑さのため、難しい問題である。
野生におけるテキストスポッティングのための視覚的コンテキストデータセットを提案する。
- 参考スコア(独自算出の注目度): 27.788077963411624
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text Spotting in the wild consists of detecting and recognizing text
appearing in images (e.g. signboards, traffic signals or brands in clothing or
objects). This is a challenging problem due to the complexity of the context
where texts appear (uneven backgrounds, shading, occlusions, perspective
distortions, etc.). Only a few approaches try to exploit the relation between
text and its surrounding environment to better recognize text in the scene. In
this paper, we propose a visual context dataset for Text Spotting in the wild,
where the publicly available dataset COCO-text [Veit et al. 2016] has been
extended with information about the scene (such as objects and places appearing
in the image) to enable researchers to include semantic relations between texts
and scene in their Text Spotting systems, and to offer a common framework for
such approaches. For each text in an image, we extract three kinds of context
information: objects in the scene, image location label and a textual image
description (caption). We use state-of-the-art out-of-the-box available tools
to extract this additional information. Since this information has textual
form, it can be used to leverage text similarity or semantic relation methods
into Text Spotting systems, either as a post-processing or in an end-to-end
training strategy. Our data is publicly available at https://git.io/JeZTb.
- Abstract(参考訳): ワイルドなテキストスポッティングは、画像に現れるテキスト(例えば、看板、交通信号、服やオブジェクトのブランド)を検出し認識することから成り立っている。
これは、テキストが現れるコンテキストの複雑さ(背景、陰影、閉塞、視点歪みなど)のため、難しい問題である。
テキストと周辺環境の関係を利用して、シーン内のテキストをよりよく認識しようとするアプローチはごくわずかである。
本稿では,公開データセットであるcoco-text [veit et al. 2016]をシーン情報(画像に現れるオブジェクトや場所など)とともに拡張し,テキストスポッティングシステムにおけるテキストとシーン間の意味的関係を研究者に含ませるとともに,そのようなアプローチのための共通フレームワークを提供する,野生のテキストスポッティングのためのビジュアルコンテキストデータセットを提案する。
画像中の各テキストに対して、シーン内のオブジェクト、画像位置ラベル、テキストによる画像記述(キャプション)の3種類のコンテキスト情報を抽出する。
私たちはこの追加情報を抽出するために最先端のツールを使用します。
この情報にはテキスト形式があるため、テキストの類似性や意味関係の手法を、後処理やエンドツーエンドのトレーニング戦略としてテキストスポッティングシステムに活用することができる。
我々のデータはhttps://git.io/JeZTb.comで公開されている。
関連論文リスト
- Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Scene Graph Based Fusion Network For Image-Text Retrieval [2.962083552798791]
画像テキスト検索における重要な課題は、画像とテキストの正確な対応を学習する方法である。
そこで我々は,Scene GraphベースのFusion Network(SGFN)を提案する。
我々のSGFNは、非常に少数のSOTA画像テキスト検索方法よりも優れている。
論文 参考訳(メタデータ) (2023-03-20T13:22:56Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - StacMR: Scene-Text Aware Cross-Modal Retrieval [19.54677614738065]
クロスモーダル検索モデルは、視覚シーンのより豊かな理解の恩恵を受けている。
現在のモデルは重要な側面を見下ろす:画像に現れるテキストは、検索のための重要な情報を含む可能性があります。
画像にシーン-テキストインスタンスを含むクロスモーダル検索の探索を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2020-12-08T10:04:25Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。