論文の概要: KRETA: A Benchmark for Korean Reading and Reasoning in Text-Rich VQA Attuned to Diverse Visual Contexts
- arxiv url: http://arxiv.org/abs/2508.19944v2
- Date: Sun, 31 Aug 2025 10:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 12:29:36.802456
- Title: KRETA: A Benchmark for Korean Reading and Reasoning in Text-Rich VQA Attuned to Diverse Visual Contexts
- Title(参考訳): KRETA: 様々な視覚環境に適応したテキストリッチVQAにおける韓国語読解と推論のためのベンチマーク
- Authors: Taebaek Hwang, Minseo Kim, Gisang Lee, Seonuk Kim, Hyunjun Eun,
- Abstract要約: KRETA (KRETA) は、様々な視覚的コンテキストに適応したテキストリッチVQAにおける韓国の読み書きとrEasoningのベンチマークである。
KRETAは、多面的評価をサポートしながら、視覚的テキスト理解と推論能力の両方の詳細な評価を容易にする。
テキストリッチな設定に最適化された半自動VQA生成パイプラインを導入する。
- 参考スコア(独自算出の注目度): 5.689962668710347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and reasoning over text within visual contexts poses a significant challenge for Vision-Language Models (VLMs), given the complexity and diversity of real-world scenarios. To address this challenge, text-rich Visual Question Answering (VQA) datasets and benchmarks have emerged for high-resource languages like English. However, a critical gap persists for low-resource languages such as Korean, where the lack of comprehensive benchmarks hinders robust model evaluation and comparison. To bridge this gap, we introduce KRETA, a benchmark for Korean Reading and rEasoning in Text-rich VQA Attuned to diverse visual contexts. KRETA facilitates an in-depth evaluation of both visual text understanding and reasoning capabilities, while also supporting a multifaceted assessment across 15 domains and 26 image types. Additionally, we introduce a semi-automated VQA generation pipeline specifically optimized for text-rich settings, leveraging refined stepwise image decomposition and a rigorous seven-metric evaluation protocol to ensure data quality. While KRETA is tailored for Korean, we hope our adaptable and extensible pipeline will facilitate the development of similar benchmarks in other languages, thereby accelerating multilingual VLM research. The code and dataset for KRETA are available at https://github.com/tabtoyou/KRETA.
- Abstract(参考訳): 視覚的コンテキスト内のテキストに対する理解と推論は、現実のシナリオの複雑さと多様性を考えれば、視覚言語モデル(VLM)にとって大きな課題となる。
この課題に対処するため、テキストリッチなVisual Question Answering(VQA)データセットとベンチマークが、英語などの高リソース言語に登場した。
しかし、韓国のような低リソース言語では、包括的なベンチマークの欠如により、堅牢なモデル評価と比較が妨げられる。
このギャップを埋めるために、さまざまな視覚的コンテキストに適応したテキストリッチVQAにおいて、韓国読解とrEasoningのベンチマークであるKRETAを導入する。
KRETAは、視覚的テキスト理解と推論機能の両方の詳細な評価を促進すると同時に、15のドメインと26のイメージタイプにわたる多面的評価をサポートする。
さらに、テキストリッチな設定に特化して最適化された半自動VQA生成パイプラインを導入し、精巧なステップワイド画像分解と厳密な7次元評価プロトコルを活用し、データ品質を確保する。
KRETAは韓国語用に最適化されているが、我々の適応可能で拡張可能なパイプラインは、他の言語での類似ベンチマークの開発を促進し、多言語VLM研究の加速を期待する。
KRETAのコードとデータセットはhttps://github.com/tabtoyou/KRETAで公開されている。
関連論文リスト
- VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文 参考訳(メタデータ) (2026-02-04T17:48:55Z) - Towards Signboard-Oriented Visual Question Answering: ViSignVQA Dataset, Method and Benchmark [5.3220011447194215]
ViSignVQAは、サインボード指向のVQA用に設計されたベトナム初の大規模データセットである。
このデータセットはベトナムの看板の多様な言語的、文化的、視覚的な特徴を捉えている。
論文 参考訳(メタデータ) (2025-12-22T13:39:40Z) - DRISHTIKON: Visual Grounding at Multiple Granularities in Documents [21.376466879737855]
DRISHTIKON (DRISHTIKON) は、マルチグラニュラおよびマルチブロックのビジュアルグラウンドフレームワークである。
提案手法は,多言語OCR,大規模言語モデル,および応答スパンをローカライズする新しい領域マッチングアルゴリズムを統合する。
我々の発見は、より堅牢で解釈可能な文書理解システムへの道を開いた。
論文 参考訳(メタデータ) (2025-06-26T14:32:23Z) - Evaluating Menu OCR and Translation: A Benchmark for Aligning Human and Automated Evaluations in Large Vision-Language Models [44.159383734605456]
異文化間コミュニケーションにおけるメニュー翻訳の重要な役割を強調する特化評価フレームワークを提案する。
MOTBenchは、それぞれの料理を正確に認識し翻訳するLVLMと、その価格とメニュー上のユニットアイテム、そして正確な人間のアノテーションを必要とする。
我々のベンチマークは中国語と英語のメニューのコレクションで構成されており、複雑なレイアウト、さまざまなフォント、さまざまな言語にまたがる文化的に特定の要素、そして正確な人間のアノテーションが特徴である。
論文 参考訳(メタデータ) (2025-04-16T03:08:57Z) - Cross-Lingual Text-Rich Visual Comprehension: An Information Theory Perspective [42.69954782425797]
LVLM(Large Vision-Language Models)は、チャート、テーブル、ドキュメントからのテキストリッチなイメージに対して、有望な推論能力を示している。
これにより、画像中の言語が命令の言語と異なる場合、言語間テキストリッチな視覚入力に対してLVLMの性能を評価する必要が生じる。
XT-VQA (Cross-Lingual Text-Rich Visual Question Answering) は,LVLMが画像テキストと質問間の言語不整合をどのように扱うかを評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-12-23T18:48:04Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [57.30218240464696]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - A Benchmark for Chinese-English Scene Text Image Super-resolution [15.042152725255171]
Scene Text Image Super- resolution (STISR) は、低解像度(LR)入力から視覚的に快適で読みやすいテキストコンテンツで高解像度(HR)のテキストイメージを復元することを目的としている。
現存する作品の多くは、比較的単純な文字構造を持つ英語のテキストの復元に重点を置いている。
我々は,STISRのタスクに対して,実世界の中国語と英語のベンチマークデータセットであるReal-CEを提案する。
論文 参考訳(メタデータ) (2023-08-07T02:57:48Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。