論文の概要: Re:Verse -- Can Your VLM Read a Manga?
- arxiv url: http://arxiv.org/abs/2508.08508v2
- Date: Wed, 13 Aug 2025 19:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 11:31:31.731782
- Title: Re:Verse -- Can Your VLM Read a Manga?
- Title(参考訳): Re:Verse - あなたのVLMはマンガを読むことができるか?
- Authors: Aaditya Baranwal, Madhav Kataria, Naitik Agrawal, Yogesh S Rawat, Shruti Vyas,
- Abstract要約: 現在の視覚言語モデル(VLM)は、表面レベルの認識と深い物語的推論の間に重要なギャップを示す。
本稿では,細粒度マルチモーダルアノテーション,クロスモーダル埋め込み解析,検索強化評価を組み合わせた新しい評価フレームワークを提案する。
本稿では,VLMにおける長期的物語理解に関する最初の体系的研究を,生成的ストーリーテリング,文脈的対話グラウンドニング,時間的推論という3つのコア評価軸を通じて行った。
- 参考スコア(独自算出の注目度): 14.057881684215047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Vision Language Models (VLMs) demonstrate a critical gap between surface-level recognition and deep narrative reasoning when processing sequential visual storytelling. Through a comprehensive investigation of manga narrative understanding, we reveal that while recent large multimodal models excel at individual panel interpretation, they systematically fail at temporal causality and cross-panel cohesion, core requirements for coherent story comprehension. We introduce a novel evaluation framework that combines fine-grained multimodal annotation, cross-modal embedding analysis, and retrieval-augmented assessment to systematically characterize these limitations. Our methodology includes (i) a rigorous annotation protocol linking visual elements to narrative structure through aligned light novel text, (ii) comprehensive evaluation across multiple reasoning paradigms, including direct inference and retrieval-augmented generation, and (iii) cross-modal similarity analysis revealing fundamental misalignments in current VLMs' joint representations. Applying this framework to Re:Zero manga across 11 chapters with 308 annotated panels, we conduct the first systematic study of long-form narrative understanding in VLMs through three core evaluation axes: generative storytelling, contextual dialogue grounding, and temporal reasoning. Our findings demonstrate that current models lack genuine story-level intelligence, struggling particularly with non-linear narratives, character consistency, and causal inference across extended sequences. This work establishes both the foundation and practical methodology for evaluating narrative intelligence, while providing actionable insights into the capability of deep sequential understanding of Discrete Visual Narratives beyond basic recognition in Multimodal Models. Project Page: https://re-verse.vercel.app
- Abstract(参考訳): 現在の視覚言語モデル(VLM)は、逐次的なビジュアルなストーリーテリングを処理する際に、表面レベルの認識と深い物語の推論の間に重要なギャップを示す。
マンガの物語理解の包括的調査を通じて,近年の大規模マルチモーダルモデルは個々のパネル解釈において優れているが,時間的因果性やパネル間密着性,コヒーレントなストーリー理解のコア要件などにおいて,体系的に失敗することが明らかとなった。
本稿では,細粒度マルチモーダルアノテーション,クロスモーダル埋め込み解析,検索強化評価を組み合わせて,これらの制約を体系的に特徴付ける新しい評価フレームワークを提案する。
私たちの方法論には
(i)ライトノベルテキストによる視覚要素と物語構造を結び付ける厳密なアノテーションプロトコル。
二 直接推論及び検索強化生成を含む複数の推論パラダイムの総合的評価
3)現在のVLMの関節表現の基本的な相違を明らかにする相互モーダル類似性分析。
この枠組みを308の注釈付きパネルを持つ11章にわたるRe:Zeroマンガに適用し、生成的ストーリーテリング、文脈対話グラウンドディング、時間的推論という3つのコア評価軸を通して、VLMにおける長文物語理解に関する最初の体系的研究を行う。
以上の結果から,現在のモデルには真のストーリーレベルのインテリジェンスが欠如していること,特に非線形な物語,文字の一貫性,拡張シーケンス間の因果推論に苦慮していることが示唆された。
この研究は、物語的インテリジェンスを評価するための基盤と実践的方法論の両方を確立し、マルチモーダルモデルにおける基本的な認識を超えた、離散的視覚的ナラティブの深いシーケンシャルな理解能力に関する実用的な洞察を提供する。
Project Page: https://re-verse.vercel.app
関連論文リスト
- Detecting Neurocognitive Disorders through Analyses of Topic Evolution and Cross-modal Consistency in Visual-Stimulated Narratives [84.03001845263]
神経認知障害(NCD)の早期発見は、時間的介入と疾患管理に不可欠である。
音声と視覚刺激の相互整合性を測定するための2つの新しい動的マクロ構造手法を提案する。
TITANはCU-MARVEL-RABBITコーパスとADReSSコーパスの両方で優れた性能を示した。
論文 参考訳(メタデータ) (2025-01-07T12:16:26Z) - Fine-Grained Modeling of Narrative Context: A Coherence Perspective via Retrospective Questions [48.18584733906447]
この研究は、物語の中の個々の通路が孤立するよりも密接な関係にある傾向があるという特徴から生まれた、物語理解のためのオリジナルで実践的なパラダイムを取り入れたものである。
本稿では,タスク非依存のコヒーレンス依存を明示的に表現したNarCoというグラフを定式化することにより,物語コンテキストのきめ細かいモデリングを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:14:04Z) - Conflicts, Villains, Resolutions: Towards models of Narrative Media
Framing [19.589945994234075]
我々は、物語の要素を明示的に捉えたコミュニケーション科学から、広く使われているフレーミングの概念化を再考する。
我々は、複雑なアノテーションタスクをより単純なバイナリー質問に分解する効果的なアノテーションパラダイムを適用します。
教師付きおよび半教師付きアプローチによるフレームの自動マルチラベル予測について検討する。
論文 参考訳(メタデータ) (2023-06-03T08:50:13Z) - M-SENSE: Modeling Narrative Structure in Short Personal Narratives Using
Protagonist's Mental Representations [14.64546899992196]
本研究では,登場人物の心的状態の推測を解析し,物語構造の顕著な要素を自動的に検出するタスクを提案する。
本稿では,物語構造の主要な要素,特にクライマックスと解像度のマニュアルアノテーションを含む,短い個人物語のSTORIESデータセットを紹介する。
我々のモデルは、クライマックスと解像度を識別するタスクにおいて、大幅な改善を達成できる。
論文 参考訳(メタデータ) (2023-02-18T20:48:02Z) - Mixed Multi-Model Semantic Interaction for Graph-based Narrative
Visualizations [10.193264105560862]
ナラティブマップは、アナリストが物語を理解するのを支援する視覚表現モデルである。
本稿では,ナラティブマップのためのセマンティックインタラクションフレームワークを提案する。
我々のSIシステムは,分析者の意図をモデル化し,物語地図の漸進的な形式化を支援することができる。
論文 参考訳(メタデータ) (2023-02-13T15:32:10Z) - A Focused Study on Sequence Length for Dialogue Summarization [68.73335643440957]
既存のモデルの出力とそれに対応する人間の参照の長さの差を解析する。
モデル設定を比較し,要約長予測のための有能な特徴を同定する。
第3に,要約長を十分に組み込むことができれば,既存のモデルに顕著な改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-09-24T02:49:48Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - Knowledge-enriched Attention Network with Group-wise Semantic for Visual
Storytelling [39.59158974352266]
視覚的なストーリーテリングは、関連した画像のグループから物語の多文を含む想像的で一貫性のあるストーリーを生成することを目的としている。
既存の手法では、画像以外の暗黙的な情報を探索することができないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。
これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識強化型アテンション・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-10T12:55:47Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。