論文の概要: Towards Faithful Reasoning in Comics for Small MLLMs
- arxiv url: http://arxiv.org/abs/2601.02991v1
- Date: Tue, 06 Jan 2026 13:00:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.937781
- Title: Towards Faithful Reasoning in Comics for Small MLLMs
- Title(参考訳): 小型MLLM用コミックの忠実推論に向けて
- Authors: Chengcheng Feng, Haojie Yin, Yucheng Jin, Kaizhu Huang,
- Abstract要約: Comic-based visual question answering (CVQA) は、象徴的抽象、物語論理、ユーモアに依存しているため、マルチモーダルな大規模言語モデル (MLLM) に対して異なる課題を提起する。
小型MLLMにおいて,より忠実で伝達可能な推論チェーンを創出するための,新しいマンガ推論フレームワークを提案する。
我々のフレームワークは、モジュールCoT生成とGRPOベースの強化微細調整と、新しい構造的報酬を組み合わせる。
- 参考スコア(独自算出の注目度): 27.458637135612154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Comic-based visual question answering (CVQA) poses distinct challenges to multimodal large language models (MLLMs) due to its reliance on symbolic abstraction, narrative logic, and humor, which differ from conventional VQA tasks. Although Chain-of-Thought (CoT) prompting is widely used to enhance MLLM reasoning, surprisingly, its direct application to CVQA often degrades performance, especially in small-scale models. Our theoretical and empirical analyses reveal that standard CoT in CVQA suffers from state entanglement, spurious transitions, and exploration inefficiency, with small models particularly vulnerable in resource-constrained settings. To address these issues, we propose a novel comic reasoning framework, designed to produce more faithful and transferable reasoning chains in small MLLMs. Specifically, our framework combines modular CoT generation with GRPO-based reinforcement fine-tuning and a novel structured reward. Beyond comic VQA, we further evaluate our approach on a broader class of humor-centric and abstract visual reasoning tasks, including meme understanding and editorial cartoon interpretation. Across five challenging benchmarks, our 3B model outperforms state-of-the-art methods, and plug-in experiments yield an additional average improvement of $\mathbf{12.1\%}$ across different MLLMs.
- Abstract(参考訳): Comic-based visual question answering (CVQA) は、従来のVQAタスクとは異なる記号的抽象化、物語論理、ユーモアに依存しているため、マルチモーダルな大規模言語モデル(MLLM)に対して異なる課題を提起する。
CoT(Chain-of-Thought)プロンプトはMLLM推論の強化に広く用いられているが、CVQAへの直接適用は特に小規模モデルでは性能を低下させる。
CVQAの標準CoTは, 資源制約条件下では特に小さいモデルで, 状態の絡み合い, 急激な遷移, 探索の非効率さに悩まされている。
これらの問題に対処するために,我々は,より忠実で伝達しやすい推論チェーンを小型MLLMで作成するための,新しい漫画推論フレームワークを提案する。
具体的には,モジュールCoT生成とGRPOをベースとした強化微調整と,新しい構造的報酬を組み合わせる。
漫画VQA以外にも、ミーム理解や編集漫画の解釈を含む、ユーモア中心で抽象的な視覚的推論タスクの幅広いクラスに対して、我々のアプローチをさらに評価する。
5つの挑戦的なベンチマークで、我々の3Bモデルは最先端の手法よりも優れており、プラグイン実験により、異なるMLLM間で$\mathbf{12.1\%}$のさらなる平均改善が得られる。
関連論文リスト
- Think Then Embed: Generative Context Improves Multimodal Embedding [51.76690812535934]
本稿では,ユニバーサル・マルチモーダル・エンベディング (UME) のためのThink-Then-Embed (TTE) フレームワークを提案する。
強力なMLLM推論器を利用することで、MMEB-V2ベンチマークで最先端のパフォーマンスを達成し、大規模な社内データセットでトレーニングされたプロプライエタリモデルを上回った。
論文 参考訳(メタデータ) (2025-10-06T16:53:56Z) - Corvid: Improving Multimodal Large Language Models Towards Chain-of-Thought Reasoning [51.867949053263466]
我々は、CoT推論機能を強化したMLLMであるCorvidを紹介する。
CorvidのCoT推論機能を強化するために,高品質なマルチモーダルCoT命令追従データセットであるMCoT-Instruct-287Kを導入する。
我々は,Corvidが過剰な推論とアンダー推論を緩和できる効果的な推論時間スケーリング戦略を提案する。
論文 参考訳(メタデータ) (2025-07-10T04:31:56Z) - QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning? [6.0636611835869205]
マルチエージェント強化学習(MARL)におけるクレジットの割り当ては依然として根本的な課題である。
大規模言語モデル(LLM)を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである textbfQLLM を提案する。
いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-17T14:07:11Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。
本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文 参考訳(メタデータ) (2024-07-17T08:21:06Z) - The Curious Case of Nonverbal Abstract Reasoning with Multi-Modal Large Language Models [19.213774611556]
MLLM(Multi-modal large language model)は、言語情報と視覚情報を統合したものである。
MLLMの革新的展望にもかかわらず、推論能力に対する我々の理解は限られている。
本研究では,オープンソースおよびクローズドソースMLLMの非言語的抽象的推論能力を評価する。
論文 参考訳(メタデータ) (2024-01-22T16:57:05Z) - Compositional Chain-of-Thought Prompting for Large Multimodal Models [46.721769077885966]
CCoT(コンポジション・チェーン・オブ・ソート)は、新規なゼロショット・オブ・ソート・プロンプト法である。
まず,Large Language Model(LLM)を用いてSGを生成し,そのSGをプロンプトに使用して応答を生成する。
提案手法は,LMMの性能向上だけでなく,一般的なマルチモーダルベンチマーク上でのLMMの性能向上にも寄与する。
論文 参考訳(メタデータ) (2023-11-27T22:23:27Z) - KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive
Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。
PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。
提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-06T08:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。