論文の概要: Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics
- arxiv url: http://arxiv.org/abs/2506.10008v1
- Date: Mon, 14 Apr 2025 14:42:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.436152
- Title: Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics
- Title(参考訳): ビジュアルナラティブ推論のための構造化グラフ表現:コミックの階層的フレームワーク
- Authors: Yi-Chun Chen,
- Abstract要約: 本稿では,漫画に焦点をあて,視覚的物語の構造的理解のための階層的知識グラフフレームワークを提案する。
それは、意味的、空間的、時間的関係をキャプチャする統合知識グラフを通してそれらを表現する。
パネルレベルでは、文字、オブジェクト、アクションなどの視覚要素と、対話やキャプションを含む対応するテキストコンポーネントをリンクするマルチモーダルグラフを構築する。
- 参考スコア(独自算出の注目度): 1.320904960556043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a hierarchical knowledge graph framework for the structured understanding of visual narratives, focusing on multimodal media such as comics. The proposed method decomposes narrative content into multiple levels, from macro-level story arcs to fine-grained event segments. It represents them through integrated knowledge graphs that capture semantic, spatial, and temporal relationships. At the panel level, we construct multimodal graphs that link visual elements such as characters, objects, and actions with corresponding textual components, including dialogue and captions. These graphs are integrated across narrative levels to support reasoning over story structure, character continuity, and event progression. We apply our approach to a manually annotated subset of the Manga109 dataset and demonstrate its ability to support symbolic reasoning across diverse narrative tasks, including action retrieval, dialogue tracing, character appearance mapping, and panel timeline reconstruction. Evaluation results show high precision and recall across tasks, validating the coherence and interpretability of the framework. This work contributes a scalable foundation for narrative-based content analysis, interactive storytelling, and multimodal reasoning in visual media.
- Abstract(参考訳): 本稿では,漫画などのマルチモーダルメディアに着目し,視覚的物語の構造的理解のための階層的知識グラフフレームワークを提案する。
提案手法は,物語の内容をマクロレベルから微細なイベントセグメントまで,複数のレベルに分解する。
それは、意味的、空間的、時間的関係をキャプチャする統合知識グラフを通してそれらを表現する。
パネルレベルでは、文字、オブジェクト、アクションなどの視覚要素と、対話やキャプションを含む対応するテキストコンポーネントをリンクするマルチモーダルグラフを構築する。
これらのグラフは、物語構造、キャラクターの連続性、出来事の進行に関する推論をサポートするために、物語レベル全体で統合されている。
提案手法はManga109データセットを手動でアノテートしたサブセットに適用し,アクション検索,対話トレーシング,キャラクタ外観マッピング,パネルタイムライン再構築など,多種多様な物語タスクのシンボリック推論を支援する能力を示す。
評価結果は,タスク間の精度とリコールを示し,フレームワークのコヒーレンスと解釈可能性を検証する。
この研究は、物語ベースのコンテンツ分析、インタラクティブなストーリーテリング、ビジュアルメディアにおけるマルチモーダル推論のためのスケーラブルな基盤を提供する。
関連論文リスト
- StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation [0.2455468619225742]
ビジュアルストーリーテリングシステムは、フレームをまたいだキャラクターのアイデンティティを維持し、適切な主題にアクションをリンクするのに苦労する。
52,016本の映画画像から得られた4,178個のストーリーを含むデータセットであるStoryReasoningを提案する。
Qwen Storytellerを作成し、ストーリー全体を通して一貫したオブジェクト参照を維持しながら、エンドツーエンドのオブジェクト検出、再識別、ランドマーク検出を行います。
論文 参考訳(メタデータ) (2025-05-15T13:42:14Z) - VisAgent: Narrative-Preserving Story Visualization Framework [5.86192577938549]
VisAgentはトレーニング不要のフレームワークで、特定のストーリーの中で重要なシーンを理解し視覚化するように設計されている。
ストーリーの蒸留、セマンティック一貫性、コンテキストコヒーレンスを考慮することで、VisAgentはエージェントワークフローを採用している。
実証的に検証された有効性は、現実的なストーリービジュアライゼーションアプリケーションに対するフレームワークの適合性を確認する。
論文 参考訳(メタデータ) (2025-03-04T08:41:45Z) - ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context [50.572907418430155]
ContextualStoryは、コヒーレントなストーリーフレームを生成し、ビジュアルなストーリーテリングのためにフレームを拡張するように設計されたフレームワークである。
ストーリーライン埋め込みにおけるコンテキストを豊かにするストーリーラインコンテクストアライザと、フレーム間のシーン変化を測定するストーリーフローアダプタを導入する。
PororoSVとFlintstonesSVデータセットの実験では、ContextualStoryはストーリーの可視化と継続の両方で既存のSOTAメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-07-13T05:02:42Z) - SCO-VIST: Social Interaction Commonsense Knowledge-based Visual
Storytelling [12.560014305032437]
本稿では、画像シーケンスをオブジェクトと関係を持つグラフとして表現するフレームワークであるSCO-VISTを紹介する。
SCO-VIST はこのグラフをプロットポイントを表し、意味的および発生に基づくエッジウェイトを持つプロットポイント間のブリッジを生成する。
この重み付きストーリーグラフは、Floyd-Warshallのアルゴリズムを用いて一連のイベントでストーリーラインを生成する。
論文 参考訳(メタデータ) (2024-02-01T04:09:17Z) - Panel Transitions for Genre Analysis in Visual Narratives [1.320904960556043]
本稿では,漫画や漫画風のビジュアル・ナラティブに基づくジャンルのマルチモーダル分析を行うための新しいアプローチを提案する。
我々は、主観的ラベルをモデル化する際の既存の計算手法の限界と課題を強調した。
論文 参考訳(メタデータ) (2023-12-14T08:05:09Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。