Fugu-MT 論文翻訳(概要): Visual Text Processing: A Comprehensive Review and Unified Evaluation

論文の概要: Visual Text Processing: A Comprehensive Review and Unified Evaluation

arxiv url: http://arxiv.org/abs/2504.21682v1
Date: Wed, 30 Apr 2025 14:19:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-09 18:23:44.268427
Title: Visual Text Processing: A Comprehensive Review and Unified Evaluation
Title（参考訳）: ビジュアルテキスト処理: 総合的なレビューと統一された評価
Authors: Yan Shu, Weichao Zeng, Fangmin Zhao, Zeyu Chen, Zhenhang Li, Xiaomeng Yang, Yu Zhou, Paolo Rota, Xiang Bai, Lianwen Jin, Xu-Cheng Yin, Nicu Sebe,
Abstract要約: 視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
参考スコア（独自算出の注目度）: 99.57846940547171
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual text is a crucial component in both document and scene images, conveying rich semantic information and attracting significant attention in the computer vision community. Beyond traditional tasks such as text detection and recognition, visual text processing has witnessed rapid advancements driven by the emergence of foundation models, including text image reconstruction and text image manipulation. Despite significant progress, challenges remain due to the unique properties that differentiate text from general objects. Effectively capturing and leveraging these distinct textual characteristics is essential for developing robust visual text processing models. In this survey, we present a comprehensive, multi-perspective analysis of recent advancements in visual text processing, focusing on two key questions: (1) What textual features are most suitable for different visual text processing tasks? (2) How can these distinctive text features be effectively incorporated into processing frameworks? Furthermore, we introduce VTPBench, a new benchmark that encompasses a broad range of visual text processing datasets. Leveraging the advanced visual quality assessment capabilities of multimodal large language models (MLLMs), we propose VTPScore, a novel evaluation metric designed to ensure fair and reliable evaluation. Our empirical study with more than 20 specific models reveals substantial room for improvement in the current techniques. Our aim is to establish this work as a fundamental resource that fosters future exploration and innovation in the dynamic field of visual text processing. The relevant repository is available at https://github.com/shuyansy/Visual-Text-Processing-survey.
Abstract（参考訳）: ビジュアルテキストは、文書画像とシーン画像の両方において重要な要素であり、リッチな意味情報を伝達し、コンピュータビジョンコミュニティで重要な注目を集めている。テキスト検出や認識といった従来のタスク以外にも、テキスト画像再構成やテキスト画像操作を含む基礎モデルの出現によって、視覚テキスト処理は急速に進歩している。著しい進歩にもかかわらず、テキストと一般的なオブジェクトを区別するユニークな性質のため、課題は残る。これらの異なるテキストの特徴を効果的に捉え、活用することは、堅牢なビジュアルテキスト処理モデルを開発する上で不可欠である。本調査では,視覚テキスト処理の最近の進歩を包括的かつ多面的に分析し,(1)視覚テキスト処理タスクに最も適するテキストの特徴は何か,という2つの重要な疑問に焦点をあてる。 (2)これらの特徴のあるテキスト機能は、どのように処理フレームワークに効果的に組み込むことができるのか? さらに、幅広いビジュアルテキスト処理データセットを含む新しいベンチマークであるVTPBenchを紹介する。マルチモーダル大規模言語モデル(MLLM)の高度な視覚的品質評価機能を活用し,公平で信頼性の高い評価基準であるVTPScoreを提案する。 20以上の特定のモデルを用いた実証研究により、現在の技術の改善の余地が明らかとなった。本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。関連するリポジトリはhttps://github.com/shuyansy/Visual-Text-Processing-survey.comにある。

関連論文リスト

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。 VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文参考訳（メタデータ） (2026-02-04T17:48:55Z)
VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
TextCrafter: Accurately Rendering Multiple Texts in Complex Visual Scenes [30.947323186487885]
複雑なビジュアルテキスト生成(CVTG)は、視覚画像内の様々な領域に分散した複雑なテキストコンテンツを生成することに焦点を当てている。 InGでは、画像生成モデルはしばしば歪んだ、ぼやけたビジュアルテキストをレンダリングするか、あるいは視覚的なテキストを欠いている。我々は,新しいマルチビジュアルテキストレンダリング手法であるTextCrafterを提案する。
論文参考訳（メタデータ） (2025-03-30T14:36:55Z)
TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文参考訳（メタデータ） (2025-03-17T21:36:31Z)
StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。学習を通してStrucTexTv3の知覚と理解能力を高める。提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文参考訳（メタデータ） (2024-05-31T16:55:04Z)
Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。この分野での最近の進歩を包括的かつ多面的に分析する。
論文参考訳（メタデータ） (2024-02-05T15:13:20Z)
Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs [96.54224331778195]
本稿では,画像中のテキストの空間的位置を識別し,MLLMを強化したテキストグラウンド文書理解モデルTGDocを提案する。我々は,テキスト検出,認識,スポッティングなどの命令チューニングタスクを定式化し,視覚エンコーダと大言語モデルとの密接なアライメントを容易にする。提案手法は,複数のテキストリッチベンチマークにまたがる最先端性能を実現し,本手法の有効性を検証した。
論文参考訳（メタデータ） (2023-11-22T06:46:37Z)
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。 OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文参考訳（メタデータ） (2023-05-13T11:28:37Z)
Learning the Visualness of Text Using Large Vision-Language Models [42.75864384249245]
視覚的テキストは人の心の中のイメージを誘発するが、視覚的でないテキストはそれを起こさない。テキスト内の視覚を自動的に検出する手法により、テキスト・ツー・イメージ検索と生成モデルにより、関連する画像でテキストを拡張できる。我々は,3,620の英語文のデータセットと,複数のアノテータによって提供されるその視覚性スコアをキュレートする。
論文参考訳（メタデータ） (2023-05-11T17:45:16Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
Language Matters: A Weakly Supervised Pre-training Approach for Scene Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文参考訳（メタデータ） (2022-03-08T08:10:45Z)
Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文参考訳（メタデータ） (2020-09-21T12:31:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。