論文の概要: Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names
- arxiv url: http://arxiv.org/abs/2408.00298v1
- Date: Thu, 1 Aug 2024 05:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 21:35:40.874403
- Title: Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names
- Title(参考訳): 太字(たんりょう)
- Authors: Ragav Sachdeva, Gyungin Shin, Andrew Zisserman,
- Abstract要約: 本論文は,マンガ全章の対話書き起こしを完全自動生成することを目的とする。
i) 言っていることを識別し、各ページのテキストを検出し、それらが本質的か非本質的かに分類する。
また、章を通して同じ文字が一貫した名前で呼ばれることも保証している。
- 参考スコア(独自算出の注目度): 53.24414727354768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling engagement of manga by visually impaired individuals presents a significant challenge due to its inherently visual nature. With the goal of fostering accessibility, this paper aims to generate a dialogue transcript of a complete manga chapter, entirely automatically, with a particular emphasis on ensuring narrative consistency. This entails identifying (i) what is being said, i.e., detecting the texts on each page and classifying them into essential vs non-essential, and (ii) who is saying it, i.e., attributing each dialogue to its speaker, while ensuring the same characters are named consistently throughout the chapter. To this end, we introduce: (i) Magiv2, a model that is capable of generating high-quality chapter-wide manga transcripts with named characters and significantly higher precision in speaker diarisation over prior works; (ii) an extension of the PopManga evaluation dataset, which now includes annotations for speech-bubble tail boxes, associations of text to corresponding tails, classifications of text as essential or non-essential, and the identity for each character box; and (iii) a new character bank dataset, which comprises over 11K characters from 76 manga series, featuring 11.5K exemplar character images in total, as well as a list of chapters in which they appear. The code, trained model, and both datasets can be found at: https://github.com/ragavsachdeva/magi
- Abstract(参考訳): 視覚障害のある個人によるマンガのエンゲージメントは、本質的に視覚的な性質のため、大きな課題を呈している。
本稿では,アクセシビリティ向上をめざして,物語の一貫性の確保を重視した完全なマンガ章の対話文を生成することを目的とする。
これは識別に必要です。
一 言っていること、すなわち、各ページのテキストを検出して、本質的対非本質的とに分類し、
(二)そのことを言う者、すなわち、各対話をその話し手に帰属させながら、同一の文字をその章を通して一貫して名付けること。
以下に紹介する。
一 題名文字による高品質な章幅マンガ写本を作成でき、かつ、先行作品よりも話者ダイアリゼーションの精度が著しく高いモデル。
(ii)PopManga評価データセットの拡張。現在、音声バブル・テールボックスのアノテーション、対応するテールへのテキストの関連、本質的または非本質的なテキストの分類、各文字ボックスのアイデンティティを含む。
(三)76連載の11万文字を超える新キャラクタバンクデータセットで、合計で11.5万字の模範文字イメージと、それらが現れる章のリストを特徴とする。
コード、トレーニングされたモデル、および両方のデータセットは、https://github.com/ragavsachdeva/magi.comで見ることができる。
関連論文リスト
- Generating Visual Stories with Grounded and Coreferent Characters [63.07511918366848]
本稿では,一貫した接地的・中核的な特徴を持つ視覚的ストーリーを予測できる最初のモデルを提案する。
我々のモデルは、広く使われているVISTベンチマークの上に構築された新しいデータセットに基づいて微調整されています。
また、物語における文字の豊かさとコア参照を測定するための新しい評価指標を提案する。
論文 参考訳(メタデータ) (2024-09-20T14:56:33Z) - Improving Quotation Attribution with Fictional Character Embeddings [11.259583037191772]
本稿では,文字のグローバルなスタイリスティックな情報をエンコードする文字埋め込みにより,人気のある引用帰属システムであるBookNLPを提案する。
提案するグローバル文字埋め込みとBookNLPの文脈情報を組み合わせることで,アナフォリックおよび暗黙的引用のための話者識別が向上することを示す。
論文 参考訳(メタデータ) (2024-06-17T09:46:35Z) - Evolving Storytelling: Benchmarks and Methods for New Character Customization with Diffusion Models [79.21968152209193]
ニューエピソード・ベンチマークを導入し、新しいキャラクターで新しいストーリーを生成する際の生成モデルの適応性を評価する。
EpicEvoは,新しいキャラクタをシームレスに統合した単一ストーリーで,拡散に基づくビジュアルストーリー生成モデルをカスタマイズする手法である。
論文 参考訳(メタデータ) (2024-05-20T07:54:03Z) - Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion [35.25298023240529]
本稿では,未注釈の漫画画像のみに基づいて文字を識別し,話者名を予測するためのゼロショット手法を提案する。
本手法ではトレーニングデータやアノテーションは必要とせず,任意のコミックシリーズで使用することができる。
論文 参考訳(メタデータ) (2024-04-22T08:59:35Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - StoryGPT-V: Large Language Models as Consistent Story Visualizers [39.790319429455856]
生成モデルは、テキストのプロンプトに基づいて、現実的で視覚的に喜ばしい画像を生成する素晴らしい能力を示しています。
しかし、新興のLarge Language Model(LLM)はあいまいな参照をナビゲートする堅牢な推論能力を示している。
遅延拡散(LDM)とLDMの利点を生かしたtextbfStoryGPT-V を導入し,一貫した高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-12-04T18:14:29Z) - Detecting and Grounding Important Characters in Visual Stories [18.870236356616907]
本稿では,リッチな文字中心アノテーションを提供するVIST-Characterデータセットを紹介する。
このデータセットに基づいて,重要な文字の検出と,視覚的ストーリーにおける文字のグラウンド化という,2つの新しいタスクを提案する。
本研究では,分布類似性と事前学習された視覚・言語モデルに基づく,シンプルで教師なしのモデルを開発する。
論文 参考訳(メタデータ) (2023-03-30T18:24:06Z) - Make-A-Story: Visual Memory Conditioned Consistent Story Generation [57.691064030235985]
本稿では,アクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,自己回帰拡散に基づく新しいフレームワークを提案する。
本手法は,視覚的品質の高いフレーム生成において,先行技術よりも優れていた。
MUGEN, PororoSV, FlintstonesSVデータセット上でのストーリー生成実験により, この手法は, 視覚的品質の高いフレーム生成において, 先行技術よりも優れるだけでなく, キャラクタと背景との適切な対応をモデル化した。
論文 参考訳(メタデータ) (2022-11-23T21:38:51Z) - StoryTrans: Non-Parallel Story Author-Style Transfer with Discourse
Representations and Content Enhancing [73.81778485157234]
長文は通常、文よりも談話構造のような複雑な著者の言語的嗜好を含んでいる。
我々は、入力されたストーリーを特定の著者スタイルに転送する必要があるノン並列ストーリー作者スタイル転送のタスクを定式化する。
モデルが自動エンコーダに退化することを防ぐために,学習した談話表現からスタイル的特徴を引き離すための追加の学習目標を用いる。
論文 参考訳(メタデータ) (2022-08-29T08:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。