論文の概要: Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing
- arxiv url: http://arxiv.org/abs/2402.03082v1
- Date: Mon, 5 Feb 2024 15:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:47:59.642644
- Title: Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing
- Title(参考訳): ビジュアルテキストの低レベルビジョン:ビジュアルテキスト処理に関する総合的な調査
- Authors: Yan Shu, Weichao Zeng, Zhenhang Li, Fangmin Zhao, Yu Zhou
- Abstract要約: 視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
- 参考スコア(独自算出の注目度): 4.057550183467041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual text, a pivotal element in both document and scene images, speaks
volumes and attracts significant attention in the computer vision domain.
Beyond visual text detection and recognition, the field of visual text
processing has experienced a surge in research, driven by the advent of
fundamental generative models. However, challenges persist due to the unique
properties and features that distinguish text from general objects. Effectively
leveraging these unique textual characteristics is crucial in visual text
processing, as observed in our study. In this survey, we present a
comprehensive, multi-perspective analysis of recent advancements in this field.
Initially, we introduce a hierarchical taxonomy encompassing areas ranging from
text image enhancement and restoration to text image manipulation, followed by
different learning paradigms. Subsequently, we conduct an in-depth discussion
of how specific textual features such as structure, stroke, semantics, style,
and spatial context are seamlessly integrated into various tasks. Furthermore,
we explore available public datasets and benchmark the reviewed methods on
several widely-used datasets. Finally, we identify principal challenges and
potential avenues for future research. Our aim is to establish this survey as a
fundamental resource, fostering continued exploration and innovation in the
dynamic area of visual text processing.
- Abstract(参考訳): 文書画像とシーン画像の両方において重要な要素であるビジュアルテキストは、ボリュームを語り、コンピュータビジョンの分野で大きな注目を集めている。
視覚テキストの検出と認識以外にも、視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験した。
しかし、テキストと一般的なオブジェクトを区別するユニークな性質と特徴のため、課題は継続する。
これらの特徴を効果的に活用することは,視覚的テキスト処理において重要である。
本稿では,この分野での最近の進歩を包括的かつ多視点的に分析する。
まず,テキスト画像の強調と復元からテキスト画像の操作まで,さまざまな学習パラダイムを包含する階層的分類法を提案する。
その後、構造、ストローク、セマンティクス、スタイル、空間コンテキストといった特定のテキスト的特徴が、どのようにして様々なタスクにシームレスに統合されるかを詳細に議論する。
さらに、利用可能な公開データセットを調査し、レビューされたメソッドを広く使われているデータセットでベンチマークする。
最後に,今後の研究の課題と可能性を明らかにする。
本研究の目的は,ビジュアルテキスト処理のダイナミックな領域における継続的な探索とイノベーションを促進するため,この調査を基礎的資源として確立することにある。
関連論文リスト
- Recent Trends in Linear Text Segmentation: a Survey [10.740243165055743]
自然言語処理の分野は、最近、Web上のテキスト、ビデオ、オーディオの急増により、多くの関心を集めている。
本稿では,線形テキストセグメンテーションの現在の進歩を概観し,その課題に対する資源とアプローチの観点から技術の現状を説明する。
論文 参考訳(メタデータ) (2024-11-25T17:48:59Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Towards Improving Document Understanding: An Exploration on
Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。
我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。
提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-11-22T06:46:37Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z) - Text Recognition in the Wild: A Survey [33.22076515689926]
本論文は,シーンテキスト認識の分野の全体像を提示する試みである。
この分野に参入する人々に対する包括的なリファレンスを提供しており、将来の研究を刺激するのに役立ちます。
論文 参考訳(メタデータ) (2020-05-07T13:57:04Z) - TextCaps: a Dataset for Image Captioning with Reading Comprehension [56.89608505010651]
テキストは人間環境において一様であり、環境を理解するためにしばしば重要である。
画像のコンテキストにおけるテキストの理解方法を研究するために,新しいデータセットであるTextCapsを,28k画像用の145kキャプションで収集した。
我々のデータセットは、テキストを認識し、それをその視覚的コンテキストに関連付け、テキストのどの部分をコピーするか、言い換えるかを決定するモデルに挑戦する。
論文 参考訳(メタデータ) (2020-03-24T02:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。