論文の概要: Zooming into Comics: Region-Aware RL Improves Fine-Grained Comic Understanding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.06490v1
- Date: Sun, 09 Nov 2025 18:27:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.973773
- Title: Zooming into Comics: Region-Aware RL Improves Fine-Grained Comic Understanding in Vision-Language Models
- Title(参考訳): コミックへのズーム:領域認識RLによる視覚言語モデルにおける細粒度コミック理解の改善
- Authors: Yule Chen, Yufan Ren, Sabine Süsstrunk,
- Abstract要約: 漫画のような複雑な視覚的物語は視覚言語モデル(VLM)に重大な課題をもたらす
本稿では,VLMによる漫画理解のためのAI4VA-FGについて紹介する。
また,GPT-4oやGemini-2.5,Qwen2.5-VLなどのオープンソースモデルなど,最先端のプロプライエタリモデルも評価した。
- 参考スコア(独自算出の注目度): 23.954335269506576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Complex visual narratives, such as comics, present a significant challenge to Vision-Language Models (VLMs). Despite excelling on natural images, VLMs often struggle with stylized line art, onomatopoeia, and densely packed multi-panel layouts. To address this gap, we introduce AI4VA-FG, the first fine-grained and comprehensive benchmark for VLM-based comic understanding. It spans tasks from foundational recognition and detection to high-level character reasoning and narrative construction, supported by dense annotations for characters, poses, and depth. Beyond that, we evaluate state-of-the-art proprietary models, including GPT-4o and Gemini-2.5, and open-source models such as Qwen2.5-VL, revealing substantial performance deficits across core tasks of our benchmarks and underscoring that comic understanding remains an unsolved challenge. To enhance VLMs' capabilities in this domain, we systematically investigate post-training strategies, including supervised fine-tuning on solutions (SFT-S), supervised fine-tuning on reasoning trajectories (SFT-R), and reinforcement learning (RL). Beyond that, inspired by the emerging "Thinking with Images" paradigm, we propose Region-Aware Reinforcement Learning (RARL) for VLMs, which trains models to dynamically attend to relevant regions through zoom-in operations. We observe that when applied to the Qwen2.5-VL model, RL and RARL yield significant gains in low-level entity recognition and high-level storyline ordering, paving the way for more accurate and efficient VLM applications in the comics domain.
- Abstract(参考訳): 漫画のような複雑な視覚的物語は、視覚言語モデル(VLM)に重大な課題をもたらす。
自然画像に優れていたにもかかわらず、VLMはスタイリングされたラインアート、オノマトペ、密集したマルチパネルレイアウトに悩まされることが多い。
このギャップに対処するために、VLMベースの漫画理解のための、初めてきめ細かな総合的なベンチマークであるAI4VA-FGを導入する。
基本的な認識や検出から高レベルなキャラクター推論や物語構築に至るまでのタスクにまたがっており、文字、ポーズ、深さの密集したアノテーションによって支えられている。
さらに、GPT-4oやGemini-2.5といった最先端のプロプライエタリモデルや、Qwen2.5-VLのようなオープンソースモデルを評価し、ベンチマークのコアタスク間での大幅なパフォーマンス上の欠陥を明らかにし、漫画の理解が未解決の課題であることを示した。
この領域におけるVLMの能力を高めるために、我々は、SFT-Sの教師付き微調整、SFT-Rの教師付き微調整、強化学習(RL)などのポストトレーニング戦略を体系的に検討した。
さらに,VLMの領域認識強化学習(Rerea-Aware Reinforcement Learning, RARL)を提案する。
我々は、Qwen2.5-VLモデルに適用すると、RLとRARLは低レベルなエンティティ認識と高レベルなストーリーラインオーダリングにおいて大きな利益をもたらし、コミック領域におけるより正確で効率的なVLMアプリケーションへの道を開くことを観察する。
関連論文リスト
- VLM-FO1: Bridging the Gap Between High-Level Reasoning and Fine-Grained Perception in VLMs [13.486495756813078]
VLM(Vision-Language Models)は、高レベルのシーン理解において優れるが、精密なローカライゼーションを必要とする微粒な知覚タスクに重点を置いている。
VLM-FO1は、オブジェクト中心の知覚を堅牢な特徴検索タスクに再フレーミングすることで、この制限を克服する新しいフレームワークである。
本手法は,プリトレーニング済みのVLMと統合したプラグイン・アンド・プレイモジュールとして動作する。
論文 参考訳(メタデータ) (2025-09-30T08:10:56Z) - Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - LLaVA-SP: Enhancing Visual Representation with Visual Spatial Tokens for MLLMs [4.478610052538001]
LLaVA-SPは、視覚的表現を高めるために、元の視覚的トークンに6つの空間的視覚的トークンのみを付加する。
LLaVA-SP-CroppingとLLaVA-SP-Poolingは適応的なプールによってグローバルなセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2025-07-01T07:20:11Z) - Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。