論文の概要: MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding
- arxiv url: http://arxiv.org/abs/2505.20298v1
- Date: Mon, 26 May 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:20.462411
- Title: MangaVQA and MangaLMM: A Benchmark and Specialized Model for Multimodal Manga Understanding
- Title(参考訳): MangaVQAとMangaLMM:マルチモーダルマンガ理解のためのベンチマークと特化モデル
- Authors: Jeonghun Baek, Kazuki Egashira, Shota Onohara, Atsuyuki Miyai, Yuki Imajuku, Hikaru Ikuta, Kiyoharu Aizawa,
- Abstract要約: マルチモーダルマンガ理解のためのベンチマークをMangaOCRとMangaVQAの2つ導入する。
MangaLMMは、オープンソースのLMM Qwen2.5-VLを微調整したマンガ特化モデルである。
我々のベンチマークとモデルは、マンガのリッチな物語領域におけるLMMの評価と発展のための総合的な基盤を提供する。
- 参考スコア(独自算出の注目度): 24.928256182137428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manga, or Japanese comics, is a richly multimodal narrative form that blends images and text in complex ways. Teaching large multimodal models (LMMs) to understand such narratives at a human-like level could help manga creators reflect on and refine their stories. To this end, we introduce two benchmarks for multimodal manga understanding: MangaOCR, which targets in-page text recognition, and MangaVQA, a novel benchmark designed to evaluate contextual understanding through visual question answering. MangaVQA consists of 526 high-quality, manually constructed question-answer pairs, enabling reliable evaluation across diverse narrative and visual scenarios. Building on these benchmarks, we develop MangaLMM, a manga-specialized model finetuned from the open-source LMM Qwen2.5-VL to jointly handle both tasks. Through extensive experiments, including comparisons with proprietary models such as GPT-4o and Gemini 2.5, we assess how well LMMs understand manga. Our benchmark and model provide a comprehensive foundation for evaluating and advancing LMMs in the richly narrative domain of manga.
- Abstract(参考訳): 漫画(まんが)は、画像とテキストを複雑な方法でブレンドする多モーダルな物語形式である。
大規模なマルチモーダルモデル(LMM)に人間のようなレベルでそのような物語を理解することを教えることで、マンガ制作者が物語を反映し、洗練するのに役立つ。
そこで本研究では,マルチモーダルマンガ理解のためのベンチマークを,ページ内テキスト認識を対象とするMangaOCRと,視覚的質問応答による文脈的理解を評価するための新しいベンチマークMangaVQAの2つ導入する。
MangaVQAは、526の高品質で手動で構築された質問応答ペアで構成され、多様な物語や視覚シナリオの信頼性評価を可能にする。
これらのベンチマークに基づいて,オープンソースのLMM Qwen2.5-VL を用いたマンガ特化モデル MangaLMM を開発した。
GPT-4o や Gemini 2.5 などのプロプライエタリモデルとの比較を含む広範な実験を通じて,LMM がマンガをどの程度よく理解しているかを評価する。
我々のベンチマークとモデルは、マンガのリッチな物語領域におけるLMMの評価と発展のための総合的な基盤を提供する。
関連論文リスト
- Context-Informed Machine Translation of Manga using Multimodal Large Language Models [4.063595992745368]
マルチモーダル大言語モデル(LLM)がマンガの翻訳に有効かを検討した。
具体的には,マルチモーダルLLMの視覚成分を利用して翻訳品質を向上させる手法を提案する。
本稿では,日本語とポーランド語を同時翻訳する新たな評価データセットを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:29:35Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - MangaUB: A Manga Understanding Benchmark for Large Multimodal Models [25.63892470012361]
漫画(まんが)は、物語を伝えるための文体と文体を組み合わせた人気メディアである。
近年、現代の大規模マルチモーダルモデル(LMM)の適応性は、より一般的なアプローチの可能性を示している。
MangaUBは、単一のパネルに表示されるコンテンツの認識と理解を評価するとともに、複数のパネルにまたがって伝達されるように設計されている。
論文 参考訳(メタデータ) (2024-07-26T18:21:30Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - M2C: Towards Automatic Multimodal Manga Complement [40.01354682367365]
マルチモーダルマンガ分析は、視覚的特徴とテキスト的特徴によるマンガ理解の強化に焦点を当てている。
現在、ほとんどのコミックは手描きであり、ページの欠落、テキストの汚染、老化といった問題に悩まされている。
2つの言語をカバーする新しいM2Cベンチマークデータセットを確立することで,まずマルチモーダルマンガ補完タスクを提案する。
論文 参考訳(メタデータ) (2023-10-26T04:10:16Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [153.37868034779385]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - Towards Fully Automated Manga Translation [8.45043706496877]
漫画、日本の漫画の機械翻訳の問題に取り組みます。
画像からコンテキストを取得することは マンガの翻訳に不可欠です。
まず,マルチモーダルコンテキスト対応翻訳フレームワークを提案する。
第二に、モデルのトレーニングでは、オリジナル漫画のペアから自動コーパス構築へのアプローチを提案します。
第3に,マンガ翻訳を評価するための新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2020-12-28T15:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。