論文の概要: Block-level Text Spotting with LLMs
- arxiv url: http://arxiv.org/abs/2406.13208v1
- Date: Wed, 19 Jun 2024 04:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:19:11.907967
- Title: Block-level Text Spotting with LLMs
- Title(参考訳): LLMを用いたブロックレベルテキストスポッティング
- Authors: Ganesh Bannur, Bharadwaj Amrutur,
- Abstract要約: 本稿では,ブロックレベルのテキストを識別するためのBTS-LLM (Block-level Text Spotting with LLMs)を提案する。
ブロックレベルのテキストスポッティングにLLMの強い意味的知識を活用することを目的としている。
- 参考スコア(独自算出の注目度): 0.7892577704654172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text spotting has seen tremendous progress in recent years yielding performant techniques which can extract text at the character, word or line level. However, extracting blocks of text from images (block-level text spotting) is relatively unexplored. Blocks contain more context than individual lines, words or characters and so block-level text spotting would enhance downstream applications, such as translation, which benefit from added context. We propose a novel method, BTS-LLM (Block-level Text Spotting with LLMs), to identify text at the block level. BTS-LLM has three parts: 1) detecting and recognizing text at the line level, 2) grouping lines into blocks and 3) finding the best order of lines within a block using a large language model (LLM). We aim to exploit the strong semantic knowledge in LLMs for accurate block-level text spotting. Consequently if the text spotted is semantically meaningful but has been corrupted during text recognition, the LLM is also able to rectify mistakes in the text and produce a reconstruction of it.
- Abstract(参考訳): テキストスポッティングは近年、文字、単語、行レベルのテキストを抽出できるパフォーマンス技術を生み出している。
しかし、画像(ブロックレベルのテキストスポッティング)からテキストのブロックを抽出することは、比較的未探索である。
ブロックは個々の行や単語、文字よりも多くのコンテキストを含むため、ブロックレベルのテキストスポッティングは、追加のコンテキストの恩恵を受ける翻訳などの下流アプリケーションを強化する。
本稿では,ブロックレベルのテキストを識別するためのBTS-LLM (Block-level Text Spotting with LLMs)を提案する。
BTS-LLM には3つの部分がある。
1) 行レベルでテキストを検出して認識すること。
2) 行をブロックにグループ化して
3) 大きな言語モデル(LLM)を使用してブロック内の行の最良の順序を見つける。
ブロックレベルのテキストスポッティングにLLMの強い意味的知識を活用することを目的としている。
従って、検出されたテキストが意味論的に意味があるが、テキスト認識中に破損した場合、LLMはテキスト内の誤りを修正し、その再構築を生成することができる。
関連論文リスト
- TextBlockV2: Towards Precise-Detection-Free Scene Text Spotting with Pre-trained Language Model [17.77384627944455]
既存のシーンテキストスポッターは、画像からテキストを見つけて書き起こすように設計されている。
提案するシーンテキストスポッターは、高度なPLMを活用して、きめ細かい検出を行うことなく性能を向上させる。
PLMベースの認識モジュールは、事前学習期間中に得られた包括的な言語知識から恩恵を受け、複雑なシナリオを効果的に処理する。
論文 参考訳(メタデータ) (2024-03-15T06:38:25Z) - Inverse-like Antagonistic Scene Text Spotting via Reading-Order
Estimation and Dynamic Sampling [26.420235903805782]
我々は、IATSと呼ばれる、エンドツーエンドのトレーニング可能な逆対角テキストスポッティングフレームワークを提案する。
具体的には、初期テキスト境界から読み順情報を抽出する革新的な読み順推定モジュール(REM)を提案する。
本手法は不規則なテキストスポッティングと逆テキストスポッティングの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-08T02:47:47Z) - Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis [52.01356859448068]
HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。
HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-10-25T22:23:54Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - Text line extraction using fully convolutional network and energy
minimization [0.0]
本稿では,テキスト線検出とエネルギー最小化のための完全畳み込みネットワークを提案する。
提案手法をVML-AHTE, VML-MOC, Diva-HisDBデータセット上で評価した。
論文 参考訳(メタデータ) (2021-01-18T23:23:03Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。