Fugu-MT 論文翻訳(概要): Unconstrained Text Detection in Manga: a New Dataset and Baseline

論文の概要: Unconstrained Text Detection in Manga: a New Dataset and Baseline

arxiv url: http://arxiv.org/abs/2009.04042v1
Date: Wed, 9 Sep 2020 00:16:51 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-20 11:39:25.319714
Title: Unconstrained Text Detection in Manga: a New Dataset and Baseline
Title（参考訳）: mangaにおけるunconstrained text detection - 新しいデータセットとベースライン
Authors: Juli\'an Del Gobbo, Rosana Matuk Herrera
Abstract要約: 本研究は,日本漫画という高度に洗練された文体で漫画ジャンルのテキストをバイナライズすることを目的としている。ピクセルレベルでのテキストアノテーションによるマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。これらの資源を用いて、多くのメトリクスにおいて、マンガにおけるテキストバイナライゼーションの現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
参考スコア（独自算出の注目度）: 3.04585143845864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The detection and recognition of unconstrained text is an open problem in research. Text in comic books has unusual styles that raise many challenges for text detection. This work aims to binarize text in a comic genre with highly sophisticated text styles: Japanese manga. To overcome the lack of a manga dataset with text annotations at a pixel level, we create our own. To improve the evaluation and search of an optimal model, in addition to standard metrics in binarization, we implement other special metrics. Using these resources, we designed and evaluated a deep network model, outperforming current methods for text binarization in manga in most metrics.
Abstract（参考訳）: 制約のないテキストの検出と認識は、研究のオープンな問題である。コミックブックのテキストには、テキスト検出の多くの課題を提起する珍しいスタイルがある。本書は、高度に洗練された文体を持つ漫画ジャンルのテキストを二元化することを目的としている:日本漫画。ピクセルレベルでのテキストアノテーションによるマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。最適なモデルの評価と探索を改善するため,バイナライゼーションにおける標準指標に加えて,他の特別な指標を実装した。これらのリソースを用いて, ディープネットワークモデルの設計と評価を行い, マンガにおけるテキストバイナリ化の現在の手法をほとんどの指標で上回った。

関連論文リスト

KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文参考訳（メタデータ） (2024-10-23T21:04:24Z)
TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。 emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文参考訳（メタデータ） (2024-08-20T08:06:09Z)
Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文参考訳（メタデータ） (2024-02-08T03:41:39Z)
The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文参考訳（メタデータ） (2024-01-18T18:59:09Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文参考訳（メタデータ） (2023-11-28T04:02:40Z)
Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection [37.083051419659135]
Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
論文参考訳（メタデータ） (2023-06-30T08:34:08Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain [53.22419717434372]
本稿では,特定のスタイルに従ってコヒーレントテキストを生成することを目的とした新しいタスク,すなわちスタイル化されたデータ・テキスト生成を提案する。このタスクは、生成されたテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題のため、簡単ではない。本稿では,論理計画型データ埋め込み,マスク型スタイル埋め込み,非バイアス型スタイリングテキスト生成の3つのコンポーネントからなる,新しいスタイル付きデータ・テキスト生成モデルであるStyleD2Tを提案する。
論文参考訳（メタデータ） (2023-05-05T03:02:41Z)
SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文参考訳（メタデータ） (2022-11-25T18:59:10Z)
Detection of Furigana Text in Images [1.77898701462905]
振仮名(ふりがな)は、日本語の音符。これらの検出は光学文字認識(OCR)の性能向上に役立つ。本プロジェクトは、日本の書物や漫画における振替の検出に焦点を当てている。
論文参考訳（メタデータ） (2022-07-08T15:27:19Z)
Unconstrained Text Detection in Manga [3.04585143845864]
本研究の目的は、高度に洗練されたテキストスタイルの漫画ジャンルにおいて、ピクセルレベルで文字を識別することである。テキスト検出の文献のほとんどは、ピクセルレベルの評価には適さないバウンディングボックスメトリクスを使用している。これらの資源を用いて、多くのメトリクスにおいて、マンガのテキスト検出における現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
論文参考訳（メタデータ） (2020-10-07T13:28:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。