論文の概要: Open Images V5 Text Annotation and Yet Another Mask Text Spotter
- arxiv url: http://arxiv.org/abs/2106.12326v1
- Date: Wed, 23 Jun 2021 11:46:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:20:58.206845
- Title: Open Images V5 Text Annotation and Yet Another Mask Text Spotter
- Title(参考訳): Open Images V5 Text Annotation and another Mask Text Spotter
- Authors: Ilya Krylov, Sergei Nosov, Vladislav Sovrasov
- Abstract要約: 本稿では,Open Images V5データセットのテキストアノテーションについて述べる。
私たちの知る限り、手作業で作成したテキストアノテーションの中では最大である。
我々は、競争性能を実現するための単純な Mask-RCNN ベースのネットワークである Yet Another Mask Text Spotter (YAMTS) を訓練した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large scale human-labeled dataset plays an important role in creating high
quality deep learning models. In this paper we present text annotation for Open
Images V5 dataset. To our knowledge it is the largest among publicly available
manually created text annotations. Having this annotation we trained a simple
Mask-RCNN-based network, referred as Yet Another Mask Text Spotter (YAMTS),
which achieves competitive performance or even outperforms current
state-of-the-art approaches in some cases on ICDAR2013, ICDAR2015 and
Total-Text datasets. Code for text spotting model available online at:
https://github.com/openvinotoolkit/training_extensions. The model can be
exported to OpenVINO-format and run on Intel CPUs.
- Abstract(参考訳): 大規模な人間ラベルデータセットは、高品質なディープラーニングモデルを作成する上で重要な役割を果たす。
本稿では,Open Images V5データセットのテキストアノテーションについて述べる。
私たちの知る限り、手作業で作成したテキストアノテーションの中では最大である。
icdar2013、icdar2015、total-textデータセットにおいて、競争力のあるパフォーマンスを実現するか、あるいは現在の最先端のアプローチを上回ることさえ可能な、シンプルなマスクrcnnベースのネットワークをトレーニングした。
https://github.com/openvinotoolkit/training_extensions。
モデルはOpenVINO-formatにエクスポートでき、Intel CPUで動作する。
関連論文リスト
- TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - Empower Text-Attributed Graphs Learning with Large Language Models
(LLMs) [5.920353954082262]
本稿では,Large Language Models (LLMs) を用いたノード生成によるテキスト分散グラフの強化のためのプラグイン・アンド・プレイ手法を提案する。
エッジ予測器を用いて、生のデータセットに固有の構造情報をキャプチャし、新たに生成されたサンプルを元のグラフに統合する。
実験では、特に低ショットシナリオにおいて、提案したパラダイムの卓越した性能を示す。
論文 参考訳(メタデータ) (2023-10-15T16:04:28Z) - Scalable Mask Annotation for Video Text Spotting [86.72547285886183]
ビデオテキストスポッティングのためのSAMTextと呼ばれるスケーラブルなマスクアノテーションパイプラインを提案する。
SAMTextを使って大規模なデータセットSAMText-9Mを作成しました。
論文 参考訳(メタデータ) (2023-05-02T14:18:45Z) - Mask-free OVIS: Open-Vocabulary Instance Segmentation without Manual
Mask Annotations [86.47908754383198]
Open-Vocabulary (OV) 法は、大規模な画像キャプチャペアと視覚言語モデルを利用して、新しいカテゴリを学習する。
提案手法は,イメージキャプションペアに存在するオブジェクトに対して,事前学習された視覚言語モデルの局所化能力を活用することで,擬似マスクアノテーションを生成する。
擬似マスクを用いてトレーニングした手法は,MS-COCOデータセットとOpenImagesデータセットのmAPスコアを大幅に改善する。
論文 参考訳(メタデータ) (2023-03-29T17:58:39Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Winner Team Mia at TextVQA Challenge 2021: Vision-and-Language
Representation Learning with Pre-trained Sequence-to-Sequence Model [18.848107244522666]
TextVQAは、画像中のテキストを読み、推論して、それらに関する質問に答えるモデルを必要とする。
この課題では、TextVQAタスクに生成モデルT5を使用します。
論文 参考訳(メタデータ) (2021-06-24T06:39:37Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。