Fugu-MT 論文翻訳(概要): JaWildText: A Benchmark for Vision-Language Models on Japanese Scene Text Understanding

論文の概要: JaWildText: A Benchmark for Vision-Language Models on Japanese Scene Text Understanding

arxiv url: http://arxiv.org/abs/2603.27942v1
Date: Mon, 30 Mar 2026 01:36:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-31 23:18:45.185692
Title: JaWildText: A Benchmark for Vision-Language Models on Japanese Scene Text Understanding
Title（参考訳）: JaWildText:日本語シーンテキスト理解のための視覚言語モデルベンチマーク
Authors: Koki Maeda, Naoaki Okazaki,
Abstract要約: JaWildTextは、日本語シーンテキスト理解における視覚言語モデル(VLM)の評価のための診断ベンチマークである。日本では新たに撮影された2,961枚の画像から,241件のインスタンスがあり,3,643種類の注釈付き文字が12万件ある。視覚的組織、出力形式、書き方で異なる3つの補完的なタスクから構成される。
参考スコア（独自算出の注目度）: 19.312383956707396
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Japanese scene text poses challenges that multilingual benchmarks often fail to capture, including mixed scripts, frequent vertical writing, and a character inventory far larger than the Latin alphabet. Although Japanese is included in several multilingual benchmarks, these resources do not adequately capture the language-specific complexities. Meanwhile, existing Japanese visual text datasets have primarily focused on scanned documents, leaving in-the-wild scene text underexplored. To fill this gap, we introduce JaWildText, a diagnostic benchmark for evaluating vision-language models (VLMs) on Japanese scene text understanding. JaWildText contains 3,241 instances from 2,961 images newly captured in Japan, with 1.12 million annotated characters spanning 3,643 unique character types. It comprises three complementary tasks that vary in visual organization, output format, and writing style: (i) Dense Scene Text Visual Question Answering (STVQA), which requires reasoning over multiple pieces of visual text evidence; (ii) Receipt Key Information Extraction (KIE), which tests layout-aware structured extraction from mobile-captured receipts; and (iii) Handwriting OCR, which evaluates page-level transcription across various media and writing directions. We evaluate 14 open-weight VLMs and find that the best model achieves an average score of 0.64 across the three tasks. Error analyses show recognition remains the dominant bottleneck, especially for kanji. JaWildText enables fine-grained, script-aware diagnosis of Japanese scene text capabilities, and will be released with evaluation code.
Abstract（参考訳）: 日本語のシーンテキストは、多言語ベンチマークでは、混合スクリプト、頻繁な縦書き、ラテン文字よりもはるかに大きい文字の在庫など、しばしばキャプチャーに失敗する課題を提起している。日本語は複数の多言語ベンチマークに含まれているが、これらのリソースは言語固有の複雑さを適切に捉えていない。一方、既存の日本語ビジュアルテキストデータセットは、主にスキャンされた文書に焦点を合わせており、未探索のシーンテキストを残している。このギャップを埋めるために,日本語のシーンテキスト理解において視覚言語モデル(VLM)を評価するための診断ベンチマークであるJaWildTextを紹介する。 JaWildTextには、日本で新たに撮影された2,961枚の画像から3,241個のインスタンスが含まれている。視覚的組織、出力形式、書き方で異なる3つの補完的なタスクから構成される。 (i)複数の視覚的テキスト証拠の推論を必要とするDense Scene Text Visual Question Answering (STVQA) 2 移動式レシートからのレイアウト対応構造抽出を検査する受信鍵情報抽出(KIE) 三様々なメディア及び書き込み方向のページレベルの転写を評価する手書きOCR。 14個のオープンウェイトVLMを評価し,3つのタスクの平均スコアが0.64であることを確認した。誤り分析は、特に漢字において、認識が主要なボトルネックであることを示している。 JaWildTextは、日本語シーンテキスト機能の細粒度でスクリプト対応の診断を可能にし、評価コードとともにリリースされる。

関連論文リスト

SEA-Vision: A Multilingual Benchmark for Comprehensive Document and Scene Text Understanding in Southeast Asia [40.4434142867308]
東南アジア11言語を対象に,文書解析とテキスト中心視覚質問応答(TEC-VQA)を共同で評価するベンチマークSEA-Visionを紹介する。 SEA-Visionには、9つの代表的なドキュメントタイプからページを解析する15,234のドキュメントが含まれている。また、テキスト認識、数値計算、比較分析、論理的推論、空間的理解を探索する7,496のTEC-VQA質問応答ペアも提供する。
論文参考訳（メタデータ） (2026-03-16T15:21:12Z)
Bharat Scene Text: A Novel Comprehensive Dataset and Benchmark for Indian Language Scene Text Understanding [3.40492636281753]
Bharat Scene Text datasetは、インドの言語シーンテキスト認識を研究するための総合的なベンチマークである。インドの11の言語と英語にまたがる100万語以上の単語で構成されており、インドの様々な言語領域で撮影された6500以上の風景画像から来ている。 Scene Text Detection、Script Identification、Cropped Word Recognition、End-to-End Scene Text Recognitionなど、複数のシーンテキストタスクをサポートする。
論文参考訳（メタデータ） (2025-11-28T10:58:37Z)
EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。本稿では,文字位置の符号化と位置の符号化手法を提案する。我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文参考訳（メタデータ） (2025-05-30T09:55:39Z)
KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文参考訳（メタデータ） (2024-10-23T21:04:24Z)
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文参考訳（メタデータ） (2024-05-21T06:48:26Z)
MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [57.30218240464696]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。 MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文参考訳（メタデータ） (2024-05-20T12:35:01Z)
The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文参考訳（メタデータ） (2024-05-19T03:55:02Z)
A Benchmark for Chinese-English Scene Text Image Super-resolution [15.042152725255171]
Scene Text Image Super- resolution (STISR) は、低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。現存する作品の多くは、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いている。我々は,STISRのタスクに対して,実世界の中国語と英語のベンチマークデータセットであるReal-CEを提案する。
論文参考訳（メタデータ） (2023-08-07T02:57:48Z)
AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。 AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文参考訳（メタデータ） (2020-08-03T08:40:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。