論文の概要: Evaluating Multimodal Large Language Models on Vertically Written Japanese Text
- arxiv url: http://arxiv.org/abs/2511.15059v1
- Date: Wed, 19 Nov 2025 03:04:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.60426
- Title: Evaluating Multimodal Large Language Models on Vertically Written Japanese Text
- Title(参考訳): 縦書き日本語テキストによる多モーダル大言語モデルの評価
- Authors: Keito Sasagawa, Shuhei Kurita, Daisuke Kawahara,
- Abstract要約: 日本語テキストにおけるMLLM(Multimodal Large Language Models)の読み出し能力について検討した。
我々は,日本語テキストを画像に描画することで,合成日本語OCRデータセットを生成し,それをモデル微調整と評価の両方に利用する。
また,縦書き日本語テキストを含む実世界の文書画像から得られた評価データセットを作成する。
- 参考スコア(独自算出の注目度): 18.775629936667105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have seen rapid advances in recent years and are now being applied to visual document understanding tasks. They are expected to process a wide range of document images across languages, including Japanese. Understanding documents from images requires models to read what are written in them. Since some Japanese documents are written vertically, support for vertical writing is essential. However, research specifically focused on vertically written Japanese text remains limited. In this study, we evaluate the reading capability of existing MLLMs on vertically written Japanese text. First, we generate a synthetic Japanese OCR dataset by rendering Japanese texts into images, and use it for both model fine-tuning and evaluation. This dataset includes Japanese text in both horizontal and vertical writing. We also create an evaluation dataset sourced from the real-world document images containing vertically written Japanese text. Using these datasets, we demonstrate that the existing MLLMs perform worse on vertically written Japanese text than on horizontally written Japanese text. Furthermore, we show that training MLLMs on our synthesized Japanese OCR dataset results in improving the performance of models that previously could not handle vertical writing. The datasets and code are publicly available https://github.com/llm-jp/eval_vertical_ja.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は近年急速に進歩しており、現在ビジュアル文書理解タスクに応用されている。
日本語を含む多言語にわたる幅広い文書画像を処理することが期待されている。
画像から文書を理解するには、その中に書かれたものを読む必要がある。
一部の日本文書は縦書きであるため、縦書きのサポートが不可欠である。
しかし、特に縦書きの日本語テキストに焦点をあてる研究は限られている。
本研究では,テキストの縦書きによるMLLMの読み出し能力について検討した。
まず、日本語のテキストを画像にレンダリングして合成した日本語OCRデータセットを作成し、それをモデル微調整と評価の両方に使用する。
このデータセットは、水平と垂直の両方で日本語のテキストを含む。
また,縦書き日本語テキストを含む実世界の文書画像から得られた評価データセットを作成する。
これらのデータセットを用いて、既存のMLLMは、水平に書かれた日本語テキストよりも、垂直に書かれた日本語テキストの方がパフォーマンスが劣ることを示した。
さらに, 合成したOCRデータセットを用いたMLLMのトレーニングにより, 従来垂直書き込みを処理できなかったモデルの性能が向上することを示す。
データセットとコードはhttps://github.com/llm-jp/eval_vertical_ja.comで公開されている。
関連論文リスト
- EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。
本稿では,文字位置の符号化と位置の符号化手法を提案する。
我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文 参考訳(メタデータ) (2025-05-30T09:55:39Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Constructing Multimodal Datasets from Scratch for Rapid Development of a Japanese Visual Language Model [30.055297898544648]
日本語を非英語とみなし、日本語のマルチモーダルデータセットをスクラッチから高速に作成する方法を提案する。
我々は,Webアーカイブから日本語画像テキストペアとインターリーブされたデータを収集し,既存のVLMを用いて画像から直接日本語の指導データを生成する。
実験の結果、これらのネイティブデータセットに基づいて訓練されたVLMは、機械翻訳されたコンテンツに依存するものよりも優れていた。
論文 参考訳(メタデータ) (2024-10-30T06:46:33Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - IRR: Image Review Ranking Framework for Evaluating Vision-Language Models [25.014419357308192]
大規模ビジョンランゲージモデル(LVLM)は画像とテキストの両方を処理し、画像キャプションや記述生成などのマルチモーダルタスクに優れる。
IRR: Image Review Rankは,批判的レビューテキストを多視点から評価するための新しい評価フレームワークである。
我々は15のカテゴリの画像のデータセットを用いて評価し、それぞれに5つの批評家レビューテキストと、英語と日本語の注釈付きランキングがあり、合計2000以上のデータインスタンスがある。
論文 参考訳(メタデータ) (2024-02-19T13:16:10Z) - COSMO: COntrastive Streamlined MultimOdal Model with Interleaved
Pre-Training [119.03392147066093]
近年の自己回帰視覚言語モデルは, テキスト生成タスクでは優れているが, アライメントタスクでは課題に直面している。
テキスト生成モデルに対照的な損失を導入し,言語モデルを専用テキスト処理と適応型マルチモーダルデータ処理コンポーネントに分割する。
このギャップを埋めるために、この研究は、包括的なキャプションを備えた最初のインターリーブ付きビデオテキストデータセットであるVideoDatasetNameを導入した。
論文 参考訳(メタデータ) (2024-01-01T18:58:42Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - MarkupLM: Pre-training of Text and Markup Language for Visually-rich
Document Understanding [35.35388421383703]
テキスト、レイアウト、画像によるマルチモーダル事前学習は、ビジュアルリッチ文書理解(VrDU)において大きな進歩を遂げた。
本稿では,マークアップ言語をバックボーンとする文書理解タスクのためのMarkupLMを提案する。
実験の結果,事前学習したMarkupLMは,複数の文書理解タスクにおいて,既存の強力なベースラインモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T09:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。