論文の概要: Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding
- arxiv url: http://arxiv.org/abs/2605.21182v1
- Date: Wed, 20 May 2026 13:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.702687
- Title: Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding
- Title(参考訳): Manga109-v2026: 現代マンガ理解のためのManga109アノテーションの再検討
- Authors: Jeonghun Baek, Atsuyuki Miyai, Shota Onohara, Hikaru Ikuta, Kiyoharu Aizawa,
- Abstract要約: 我々はManga109の対話テキストアノテーションを再検討し、アノテーションの5つのカテゴリを特定した。
これらの問題に対処するため、OCRベースの問題検出と手動修正を組み合わせてManga109-v2026を構築し、約29,000のダイアログアノテーションを修正した。
- 参考スコア(独自算出の注目度): 29.071576155573492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Manga is a culturally distinctive multimodal medium and one of the most influential forms of Japanese popular culture. As AI systems increasingly target manga understanding, OCR, and translation, Manga109 has become a foundational dataset for manga-related AI research. However, the current Manga109 dataset contains transcription errors and coarse annotations, which do not align well with modern OCR and multimodal manga understanding tasks. In this work, we revisit the dialogue text annotations of Manga109 and identify five categories of annotation issues, including transcription errors, missing text regions, overlapping dialogue and onomatopoeia, and under-segmented speech balloons. To address these issues, we combine OCR-based issue detection and manual revision to construct Manga109-v2026, revising approximately 29,000 dialogue annotations. Our revisions better align Manga109 with modern OCR and multimodal manga understanding systems while preserving expressive structures characteristic of manga.
- Abstract(参考訳): マンガは文化的に独特なマルチモーダルメディアであり、日本の大衆文化の最も影響力のある形態の1つである。
AIシステムは、漫画理解、OCR、翻訳をますますターゲットとしているため、Manga109は、マンガ関連のAI研究の基盤となるデータセットになっている。
しかし、現在のManga109データセットには転写エラーと粗いアノテーションが含まれており、現代のOCRやマルチモーダルマンガ理解タスクとうまく一致しない。
本研究では,Manga109の対話テキストアノテーションを再検討し,書き起こし誤り,テキスト領域の欠如,重複する対話とオノマトペ,未分類音声バルーンの5つのカテゴリを同定する。
これらの問題に対処するため、OCRベースの問題検出と手動修正を組み合わせてManga109-v2026を構築し、約29,000のダイアログアノテーションを修正した。
我々は,マンガの特徴的表現構造を保ちながら,マンガ109と現代のOCRおよびマルチモーダルマンガ理解システムとの整合性を向上した。
関連論文リスト
- Manga Generation via Layout-controllable Diffusion [21.080054070512023]
本稿では,マンガ生成タスクを提示し,プレーンテキストからのみマンガ生成を研究するためのマンガ109Storyデータセットを構築する。
マンガ生成過程におけるパネル内およびパネル間情報相互作用を容易にするためのマンガ拡散法を提案する。
論文 参考訳(メタデータ) (2024-12-26T17:52:19Z) - Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names [53.24414727354768]
本論文は,マンガ全章の対話書き起こしを完全自動生成することを目的とする。
i) 言っていることを識別し、各ページのテキストを検出し、それらが本質的か非本質的かに分類する。
また、章を通して同じ文字が一貫した名前で呼ばれることも保証している。
論文 参考訳(メタデータ) (2024-08-01T05:47:04Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - M2C: Towards Automatic Multimodal Manga Complement [40.01354682367365]
マルチモーダルマンガ分析は、視覚的特徴とテキスト的特徴によるマンガ理解の強化に焦点を当てている。
現在、ほとんどのコミックは手描きであり、ページの欠落、テキストの汚染、老化といった問題に悩まされている。
2つの言語をカバーする新しいM2Cベンチマークデータセットを確立することで,まずマルチモーダルマンガ補完タスクを提案する。
論文 参考訳(メタデータ) (2023-10-26T04:10:16Z) - Towards Fully Automated Manga Translation [8.45043706496877]
漫画、日本の漫画の機械翻訳の問題に取り組みます。
画像からコンテキストを取得することは マンガの翻訳に不可欠です。
まず,マルチモーダルコンテキスト対応翻訳フレームワークを提案する。
第二に、モデルのトレーニングでは、オリジナル漫画のペアから自動コーパス構築へのアプローチを提案します。
第3に,マンガ翻訳を評価するための新しいベンチマークを作成した。
論文 参考訳(メタデータ) (2020-12-28T15:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。