論文の概要: COO: Comic Onomatopoeia Dataset for Recognizing Arbitrary or Truncated
Texts
- arxiv url: http://arxiv.org/abs/2207.04675v1
- Date: Mon, 11 Jul 2022 07:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 23:53:13.948085
- Title: COO: Comic Onomatopoeia Dataset for Recognizing Arbitrary or Truncated
Texts
- Title(参考訳): COO:オノマトペアのコマトペア・データセットで任意のテキストを認識(動画あり)
- Authors: Jeonghun Baek, Yusuke Matsui, Kiyoharu Aizawa
- Abstract要約: 日本語漫画におけるオノマトペのテキストからなる新しい漫画オノマトペデータセット(COO)を提供する。
COOは、非常に湾曲した、部分的に縮小したテキスト、任意に配置されたテキストなど、多くの任意のテキストを持っている。
我々は,オノマトペ領域を検出し,その意図した意味を捉えるために,テキスト検出,テキスト認識,リンク予測という3つのタスクを実行する。
- 参考スコア(独自算出の注目度): 47.5130108484407
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recognizing irregular texts has been a challenging topic in text recognition.
To encourage research on this topic, we provide a novel comic onomatopoeia
dataset (COO), which consists of onomatopoeia texts in Japanese comics. COO has
many arbitrary texts, such as extremely curved, partially shrunk texts, or
arbitrarily placed texts. Furthermore, some texts are separated into several
parts. Each part is a truncated text and is not meaningful by itself. These
parts should be linked to represent the intended meaning. Thus, we propose a
novel task that predicts the link between truncated texts. We conduct three
tasks to detect the onomatopoeia region and capture its intended meaning: text
detection, text recognition, and link prediction. Through extensive
experiments, we analyze the characteristics of the COO. Our data and code are
available at \url{https://github.com/ku21fan/COO-Comic-Onomatopoeia}.
- Abstract(参考訳): 不規則なテキストを認識することは、テキスト認識において難しいトピックである。
本研究を奨励するために,日本漫画におけるオノマトペテキストからなる,新しい漫画オノマトペデータセット(coo)を提案する。
COOは、非常に湾曲した、部分的に縮小したテキスト、任意に配置されたテキストなど、多くの任意のテキストを持っている。
さらに、いくつかのテキストはいくつかの部分に分けられる。
各部分は切り刻まれたテキストであり、それ自体は意味がない。
これらの部分は、意図した意味を表すためにリンクされるべきである。
そこで本研究では,テキスト間のリンクを予測する新しいタスクを提案する。
我々はオノマトペ領域を検出し,その意図する意味であるテキスト検出,テキスト認識,リンク予測の3つのタスクを実行する。
広範な実験を通じて,COOの特徴を分析した。
我々のデータとコードは \url{https://github.com/ku21fan/COO-Comic-Onomatopoeia} で利用可能です。
関連論文リスト
- Graph-based Semantical Extractive Text Analysis [0.0]
本研究では,テキストの部分間の意味的類似性を組み込むことで,TextRankアルゴリズムの結果を改善する。
キーワード抽出とテキスト要約とは別に,本フレームワークに基づくトピッククラスタリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-12-19T18:30:26Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - SCROLLS: Standardized CompaRison Over Long Language Sequences [62.574959194373264]
SCROLLSは長いテキストに対する推論を必要とするタスクのスイートである。
SCROLLSには要約、質問応答、自然言語推論タスクが含まれる。
すべてのデータセットを統一されたテキスト・ツー・テキスト形式で利用可能にし、モデルアーキテクチャと事前学習方法の研究を容易にするために、ライブのリーダーボードをホストします。
論文 参考訳(メタデータ) (2022-01-10T18:47:15Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Video Text Tracking With a Spatio-Temporal Complementary Model [46.99051486905713]
テキストトラッキングは、ビデオ内の複数のテキストを追跡し、各テキストの軌跡を構築することである。
既存の手法は、トラッキング・バイ・ディテククション・フレームワークを利用する。
我々は、このパラダイムの追跡精度がより複雑なシナリオで著しく制限されていると論じる。
論文 参考訳(メタデータ) (2021-11-09T08:23:06Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。