論文の概要: Exploring OCR-augmented Generation for Bilingual VQA
- arxiv url: http://arxiv.org/abs/2510.02543v1
- Date: Thu, 02 Oct 2025 20:19:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.166053
- Title: Exploring OCR-augmented Generation for Bilingual VQA
- Title(参考訳): バイリンガルVQAのためのOCR強化生成の探索
- Authors: JoonHo Lee, Sunho Park,
- Abstract要約: 視覚言語モデル(VLM)を用いたOCR拡張生成の検討
この領域の研究を支援するため、KLOCRをトレーニングし、リリースする。
既存のVQAベンチマークを補完するため、韓国のVQAに対してKOCRBenchをキュレートする。
- 参考スコア(独自算出の注目度): 5.541485330114692
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We investigate OCR-augmented generation with Vision Language Models (VLMs), exploring tasks in Korean and English toward multilingualism. To support research in this domain, we train and release KLOCR, a strong bilingual OCR baseline trained on 100M instances to augment VLMs with OCR ability. To complement existing VQA benchmarks, we curate KOCRBench for Korean VQA, and analyze different prompting methods. Extensive experiments show that OCR-extracted text significantly boosts performance across open source and commercial models. Our work offers new insights into OCR-augmented generation for bilingual VQA. Model, code, and data are available at https://github.com/JHLee0513/KLOCR.
- Abstract(参考訳): 視覚言語モデル(VLM)を用いたOCR強化世代について検討し,韓国語と英語のタスクを多言語化に向けて探索する。
この領域での研究を支援するため、我々は1億のインスタンスでトレーニングされた強力なバイリンガルOCRベースラインであるKLOCRをトレーニングおよびリリースし、OCR能力を持つVLMを増強する。
既存のVQAベンチマークを補完するため、韓国のVQA向けにKOCRBenchをキュレートし、異なるプロンプト法を解析する。
大規模な実験により、OCR抽出されたテキストは、オープンソースモデルと商用モデル間でパフォーマンスを大幅に向上させることが示された。
我々の研究は、バイリンガルVQAのためのOCR強化世代に関する新たな洞察を提供する。
モデル、コード、データはhttps://github.com/JHLee0513/KLOCRで入手できる。
関連論文リスト
- Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency [31.095908827004695]
MLLM(Multimodal Large Language Models)は,文書画像タスクにおいて高い性能を示す。
彼らはDocument Image Machine Translation (DIMT)と闘っている。
我々は,「バイリンガル認知アドバンテージ」の概念に触発されて,SSR(Synchronously Self-Reviewing)という新たな微調整パラダイムを導入した。
論文 参考訳(メタデータ) (2025-07-11T05:02:06Z) - Evaluating Robustness of LLMs in Question Answering on Multilingual Noisy OCR Data [26.34532500908141]
我々は,OCRによる雑音が多言語QAシステムの性能に与える影響を包括的に分析する。
この分析を支援するために,多言語QAデータセットであるMultiOCR-QAを導入する。
データセットは、OCRの異なるレベルと種類のOCRノイズを含む、OCRが編集した歴史文書からキュレートされる。
次に、3つの主要なOCRエラータイプに着目し、異なるエラー条件下で、異なる最先端の大規模言語モデル(LLM)がどのように機能するかを評価する。
論文 参考訳(メタデータ) (2025-02-24T02:16:37Z) - Ocean-OCR: Towards General OCR Application via a Vision-Language Model [6.70908296002235]
textbfOcean-OCRは3B MLLMで、様々なOCRシナリオにおける最先端性能と、一般的なタスクにおける同等の理解能力を持つ。
我々は、オープンソースのOCRベンチマークや様々なOCRシナリオにおける包括的な実験を通じて、Ocean-OCRの優位性を実証する。
論文 参考訳(メタデータ) (2025-01-26T15:20:39Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - Spanish TrOCR: Leveraging Transfer Learning for Language Adaptation [0.0]
本研究では,TrOCRアーキテクチャのスペイン語への移行学習能力について検討する。
我々は、英語のTrOCRエンコーダを言語固有のデコーダと統合し、この言語でモデルを訓練する。
英語のTrOCRをスペイン語で微調整すると、固定データセットサイズに対する言語固有のデコーダよりも優れた認識が得られる。
論文 参考訳(メタデータ) (2024-07-09T15:31:41Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - OCR Improves Machine Translation for Low-Resource Languages [10.010595434359647]
我々は,騒音に富んだ実データと合成データからなる新しいベンチマークであるtextscOCR4MTを導入し,公開する。
我々は、我々のベンチマークで最先端のOCRシステムを評価し、最も一般的なエラーを分析した。
次に,OCRエラーが機械翻訳性能に与える影響について検討する。
論文 参考訳(メタデータ) (2022-02-27T02:36:45Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。