論文の概要: ComicScene154: A Scene Dataset for Comic Analysis
- arxiv url: http://arxiv.org/abs/2508.16190v1
- Date: Fri, 22 Aug 2025 08:11:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.305922
- Title: ComicScene154: A Scene Dataset for Comic Analysis
- Title(参考訳): ComicScene154: コミック分析のためのシーンデータセット
- Authors: Sandro Paval, Ivan P. Yamshchikov, Pascal Meißner,
- Abstract要約: コミックは、計算的物語分析のための説得力あるが未探索の領域を提供する。
ComicScene154は、様々なジャンルにまたがるパブリックドメインのコミックブックから派生した、シーンレベルの物語的アークのデータセットである。
- 参考スコア(独自算出の注目度): 5.052646224667598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comics offer a compelling yet under-explored domain for computational narrative analysis, combining text and imagery in ways distinct from purely textual or audiovisual media. We introduce ComicScene154, a manually annotated dataset of scene-level narrative arcs derived from public-domain comic books spanning diverse genres. By conceptualizing comics as an abstraction for narrative-driven, multimodal data, we highlight their potential to inform broader research on multi-modal storytelling. To demonstrate the utility of ComicScene154, we present a baseline scene segmentation pipeline, providing an initial benchmark that future studies can build upon. Our results indicate that ComicScene154 constitutes a valuable resource for advancing computational methods in multimodal narrative understanding and expanding the scope of comic analysis within the Natural Language Processing community.
- Abstract(参考訳): コミックは、純粋にテキストメディアやオーディオヴィジュアルメディアとは異なる方法でテキストと画像を組み合わせた、計算的物語分析のための、魅力的だが未探索の領域を提供する。
ComicScene154は、様々なジャンルにまたがるパブリックドメインのコミックブックから得られた、シーンレベルの物語的アークを手動でアノテートしたデータセットである。
物語駆動型マルチモーダルデータの抽象化として漫画を概念化することにより、多モーダルなストーリーテリングについてより広範な研究を行う可能性を明らかにする。
ComicScene154の実用性を実証するために、ベースラインシーンセグメンテーションパイプラインを紹介し、将来の研究が構築できる最初のベンチマークを提供する。
この結果から,ComicScene154は,自然言語処理コミュニティにおいて,多モーダルな物語理解における計算手法の進歩と,漫画分析の範囲の拡大に有用な資源となっていることが示唆された。
関連論文リスト
- Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics [1.320904960556043]
本稿では,漫画に焦点をあて,視覚的物語の構造的理解のための階層的知識グラフフレームワークを提案する。
それは、意味的、空間的、時間的関係をキャプチャする統合知識グラフを通してそれらを表現する。
パネルレベルでは、文字、オブジェクト、アクションなどの視覚要素と、対話やキャプションを含む対応するテキストコンポーネントをリンクするマルチモーダルグラフを構築する。
論文 参考訳(メタデータ) (2025-04-14T14:42:19Z) - From Panels to Prose: Generating Literary Narratives from Comics [55.544015596503726]
漫画からテキストベースの文芸物語を自動生成するシステムを開発した。
提案手法は,オリジナルの物語を伝えるだけでなく,キャラクターの深さや複雑さを捉えた,挑発的で没入的な散文を作成することを目的としている。
論文 参考訳(メタデータ) (2025-03-30T07:18:10Z) - One missing piece in Vision and Language: A Survey on Comics Understanding [13.766672321462435]
この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:26:26Z) - Panel Transitions for Genre Analysis in Visual Narratives [1.320904960556043]
本稿では,漫画や漫画風のビジュアル・ナラティブに基づくジャンルのマルチモーダル分析を行うための新しいアプローチを提案する。
我々は、主観的ラベルをモデル化する際の既存の計算手法の限界と課題を強調した。
論文 参考訳(メタデータ) (2023-12-14T08:05:09Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z) - Manga109Dialog: A Large-scale Dialogue Dataset for Comics Speaker Detection [37.083051419659135]
Manga109Dialogは世界最大の漫画話者データセットデータセットであり、132,692対の話者対を含む。
距離に基づく既存手法とは異なり,シーングラフ生成モデルを用いた深層学習手法を提案する。
実験の結果,シーングラフによるアプローチは既存の手法よりも優れており,予測精度は75%以上であることがわかった。
論文 参考訳(メタデータ) (2023-06-30T08:34:08Z) - NewsStories: Illustrating articles with visual summaries [49.924916589209374]
我々は,3300万記事,2200万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。
現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。
本稿では,GoodNewsデータセット上で,ゼロショット画像セット検索において,これらの手法を10%向上させる直感的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-07-26T17:34:11Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。