論文の概要: From Panels to Prose: Generating Literary Narratives from Comics
- arxiv url: http://arxiv.org/abs/2503.23344v1
- Date: Sun, 30 Mar 2025 07:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.07072
- Title: From Panels to Prose: Generating Literary Narratives from Comics
- Title(参考訳): パネルから散文へ:コミックから文学物語を生成する
- Authors: Ragav Sachdeva, Andrew Zisserman,
- Abstract要約: 漫画からテキストベースの文芸物語を自動生成するシステムを開発した。
提案手法は,オリジナルの物語を伝えるだけでなく,キャラクターの深さや複雑さを捉えた,挑発的で没入的な散文を作成することを目的としている。
- 参考スコア(独自算出の注目度): 55.544015596503726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comics have long been a popular form of storytelling, offering visually engaging narratives that captivate audiences worldwide. However, the visual nature of comics presents a significant barrier for visually impaired readers, limiting their access to these engaging stories. In this work, we provide a pragmatic solution to this accessibility challenge by developing an automated system that generates text-based literary narratives from manga comics. Our approach aims to create an evocative and immersive prose that not only conveys the original narrative but also captures the depth and complexity of characters, their interactions, and the vivid settings in which they reside. To this end we make the following contributions: (1) We present a unified model, Magiv3, that excels at various functional tasks pertaining to comic understanding, such as localising panels, characters, texts, and speech-bubble tails, performing OCR, grounding characters etc. (2) We release human-annotated captions for over 3300 Japanese comic panels, along with character grounding annotations, and benchmark large vision-language models in their ability to understand comic images. (3) Finally, we demonstrate how integrating large vision-language models with Magiv3, can generate seamless literary narratives that allows visually impaired audiences to engage with the depth and richness of comic storytelling.
- Abstract(参考訳): コミックは長い間、ストーリーテリングの人気のある形式であり、世界中の観客を魅了する視覚的に魅力的な物語を提供している。
しかし、漫画の視覚的な性質は、視覚障害のある読者にとって重要な障壁を示し、これらのエンゲージメントな物語へのアクセスを制限する。
本研究では,マンガ漫画からテキストベースの物語を自動生成するシステムを開発することにより,アクセシビリティ問題に対する実用的な解決策を提供する。
我々のアプローチは、オリジナルの物語を伝えるだけでなく、キャラクターの深さと複雑さ、その相互作用、そしてそれらが居住する鮮やかな設定を捉える、挑発的で没入的な散文を作成することを目的としている。
本研究の目的は,(1) 漫画理解に関わる多種多様な機能的タスク,例えばローカライズ・パネル,文字,テキスト,音声バブル・テール,OCRの実行,グラウンドディング・キャプション等について,Magiv3という統一モデルを提案することである。
(3) 最後に,Magiv3と大規模視覚言語モデルを統合することで,視覚障害者が漫画のストーリーテリングの深さと豊かさに関わり得るような,シームレスな文芸物語を生成できることを示す。
関連論文リスト
- One missing piece in Vision and Language: A Survey on Comics Understanding [13.766672321462435]
この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:26:26Z) - Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models [57.30913211264333]
提案するStory3D-Agentは、提供された物語を3Dレンダリングの可視化に変換する先駆的なアプローチである。
プロシージャモデリングを統合することで,複数文字の動作や動きを正確に制御できるだけでなく,多様な装飾的要素も利用できる。
我々は,ストーリー3D-Agentを徹底的に評価し,その有効性を検証し,3Dストーリー表現を前進させるための基本的な枠組みを提供した。
論文 参考訳(メタデータ) (2024-08-21T17:43:15Z) - Toward accessible comics for blind and low vision readers [0.059584784039407875]
我々は,既存のコンピュータビジョンと光学的文字認識技術を用いて,漫画のストリップ画像コンテンツから接地コンテキストを構築することを提案する。
我々は,文字の出現,姿勢,気分,対話など,文脈対応のパネル記述による漫画の脚本を生成する。
論文 参考訳(メタデータ) (2024-07-11T07:50:25Z) - Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion [35.25298023240529]
本稿では,未注釈の漫画画像のみに基づいて文字を識別し,話者名を予測するためのゼロショット手法を提案する。
本手法ではトレーニングデータやアノテーションは必要とせず,任意のコミックシリーズで使用することができる。
論文 参考訳(メタデータ) (2024-04-22T08:59:35Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - Envisioning Narrative Intelligence: A Creative Visual Storytelling
Anthology [7.962160810367763]
この創造的なビジュアルなストーリーテリングプロセスで見られるバリエーションを特徴付ける5つのテーマを提示する。
我々は、計算的なビジュアルストーリーテリングのための物語知能基準を、創造的で、信頼性があり、表現力があり、基礎があり、責任があるものとして想定する。
論文 参考訳(メタデータ) (2023-10-06T18:47:20Z) - Comics for Everyone: Generating Accessible Text Descriptions for Comic
Strips [0.0]
我々は、視覚障害者のコミュニティにアクセス可能なコミックストリップの自然言語記述を作成します。
まず、コンピュータビジョン技術を用いて、コミック画像のパネル、文字、テキストに関する情報を抽出する。
我々は,人間の専門家が注釈付けした漫画のコレクション上で本手法を試行し,定量的および定性的な指標を用いてその性能を計測する。
論文 参考訳(メタデータ) (2023-10-01T15:13:48Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Automatic Comic Generation with Stylistic Multi-page Layouts and
Emotion-driven Text Balloon Generation [57.10363557465713]
本稿では,人間の介入なしにビデオから漫画を自動生成するシステムを提案する。
サブタイトルとともに入力ビデオが与えられると,まずサブタイトルを解析して情報抽出を行う。
そこで,複数のページにまたがる画像の割り当てが可能な,新しい自動マルチページフレームワークレイアウトを提案する。
論文 参考訳(メタデータ) (2021-01-26T22:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。