論文の概要: Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling
- arxiv url: http://arxiv.org/abs/2602.02453v2
- Date: Tue, 03 Feb 2026 03:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.743252
- Title: Thinking with Comics: Enhancing Multimodal Reasoning through Structured Visual Storytelling
- Title(参考訳): コミックで考える:構造化されたビジュアルストーリーテリングによるマルチモーダル推論の強化
- Authors: Andong Chen, Wenxin Zhu, Qiuyu Ding, Yuchen Song, Muyun Yang, Tiejun Zhao,
- Abstract要約: コミックによる思考は、漫画を画像とビデオの間に位置する高い情報密度の媒体として利用する視覚的推論パラダイムである。
コミックは、時間構造、埋め込みテキスト、物語コヒーレンスを保存し、推論コストを著しく低減する。
- 参考スコア(独自算出の注目度): 25.305621689469444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-Thought reasoning has driven large language models to extend from thinking with text to thinking with images and videos. However, different modalities still have clear limitations: static images struggle to represent temporal structure, while videos introduce substantial redundancy and computational cost. In this work, we propose Thinking with Comics, a visual reasoning paradigm that uses comics as a high information-density medium positioned between images and videos. Comics preserve temporal structure, embedded text, and narrative coherence while requiring significantly lower reasoning cost. We systematically study two reasoning paths based on comics and evaluate them on a range of reasoning tasks and long-context understanding tasks. Experimental results show that Thinking with Comics outperforms Thinking with Images on multi-step temporal and causal reasoning tasks, while remaining substantially more efficient than Thinking with Video. Further analysis indicates that different comic narrative structures and styles consistently affect performance across tasks, suggesting that comics serve as an effective intermediate visual representation for improving multimodal reasoning.
- Abstract(参考訳): Chain-of-Thought推論により、大きな言語モデルは、テキストで考えることから、画像やビデオで考えることまで拡張された。
静的画像は時間構造を表現するのに苦労し、ビデオは相当な冗長性と計算コストをもたらす。
本研究では,映像と映像の間に位置する高情報密度メディアとして,漫画を用いた視覚的推論パラダイムであるThinking with Comicsを提案する。
コミックは、時間構造、埋め込みテキスト、物語コヒーレンスを保存し、推論コストを著しく低減する。
我々は,漫画に基づく2つの推論経路を体系的に研究し,様々な推論タスクと長文理解タスクに基づいて評価する。
実験結果から、コミックによる思考は、多段階の時間的・因果推論タスクにおいてイメージによる思考よりも優れ、ビデオによる思考よりもはるかに効率的であることがわかった。
さらに分析したところ、異なる漫画の物語構造やスタイルがタスク間のパフォーマンスに一貫して影響を与えていることが示され、漫画はマルチモーダル推論を改善する効果的な中間的視覚表現として機能することを示唆している。
関連論文リスト
- Mull-Tokens: Modality-Agnostic Latent Thinking [83.76982012426055]
Mull-Tokensは、画像またはテキストのモダリティの中間情報を保持するために事前訓練された、モダリティに依存しない潜在トークンである。
我々は,Mul-Tokensがテキストのみの推論やインターリーブ画像テキスト推論を利用して,いくつかのベースラインを改善することを示した。
論文 参考訳(メタデータ) (2025-12-11T18:59:08Z) - ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning [76.95203056566191]
マルチモーダル推論は言語と視覚の反復的調整を必要とするが、何が意味あるインターリーブド思考の連鎖を構成するかは定かではない。
我々はThinkMorphを開発した。ThinkMorphは、視覚的エンゲージメントの異なるタスクにまたがる、約24Kの高品質なインターリーブ付き推論トレースに基づいて微調整された統一モデルだ。
ThinkMorphは、一貫性のある言語論理を維持しながら、視覚的コンテンツを具体的に操作する、プログレッシブなテキストイメージ推論ステップを生成することを学ぶ。
論文 参考訳(メタデータ) (2025-10-30T17:51:38Z) - MiCo: Multi-image Contrast for Reinforcement Visual Reasoning [72.81576836419373]
CoT(Chain-of-Thought)推論は、複数の画像に視覚的手がかりをリンクするために使用することができる。
視覚言語モデル(VLM)の規則に基づく強化学習に適応する
提案手法は,マルチイメージ推論ベンチマークにおいて大幅な改善を実現し,汎用視覚タスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2025-06-27T17:59:27Z) - VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos [89.39873803375498]
VideoMathQAは、ビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークである。
ベンチマークは10種類の数学的領域にまたがっており、ビデオは10秒から1時間以上に及ぶ。
構造化された視覚的コンテンツを解釈し、指導的物語を理解し、視覚的、音声的、テキスト的モダリティにまたがる共同概念を理解するためのモデルが必要である。
論文 参考訳(メタデータ) (2025-06-05T17:59:58Z) - Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics [1.320904960556043]
本稿では,漫画に焦点をあて,視覚的物語の構造的理解のための階層的知識グラフフレームワークを提案する。
それは、意味的、空間的、時間的関係をキャプチャする統合知識グラフを通してそれらを表現する。
パネルレベルでは、文字、オブジェクト、アクションなどの視覚要素と、対話やキャプションを含む対応するテキストコンポーネントをリンクするマルチモーダルグラフを構築する。
論文 参考訳(メタデータ) (2025-04-14T14:42:19Z) - One missing piece in Vision and Language: A Survey on Comics Understanding [13.766672321462435]
この調査は、コミックインテリジェンスのためのタスク指向フレームワークを提案する最初のものである。
データ可用性とタスク定義における重要なギャップに対処することで、将来の研究を導くことを目的としている。
論文 参考訳(メタデータ) (2024-09-14T18:26:26Z) - Cracking the Code of Juxtaposition: Can AI Models Understand the Humorous Contradictions [16.23585043442914]
本論では, ユーモラスな矛盾を生じさせる2つのパネルから構成される, 矛盾した物語を持つ漫画に焦点を当てる。
本稿では,これらの漫画の認識と解釈においてAIの能力を評価することを目的とした,さまざまな難易度タスクを含むYesButベンチマークを紹介する。
以上の結果から,現状のモデルでさえ,この課題における人的パフォーマンスに遅れをとどめていることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-29T13:51:43Z) - Dense Multitask Learning to Reconfigure Comics [63.367664789203936]
漫画パネルの密集予測を実現するために,MultiTask Learning (MTL) モデルを開発した。
本手法は,漫画パネルにおける意味単位と3D概念の同定に有効である。
論文 参考訳(メタデータ) (2023-07-16T15:10:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。