論文の概要: Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
- arxiv url: http://arxiv.org/abs/2604.13054v1
- Date: Tue, 17 Mar 2026 15:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.641424
- Title: Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling
- Title(参考訳): Caption First, VQA Second: 知識密度はタスクフォーマットではなく,マルチモーダルスケーリングを駆動する
- Authors: Hongjian Zou, Yue Ge, Qi Ding, Yixuan Liao, Xiaoxin Chen,
- Abstract要約: マルチモーダルスケーリングの主なボトルネックはタスク形式ではなく、トレーニングデータにおける知識密度である。
構造化キャプションエンリッチメントとクロスモーダル・ナレッジインジェクションにより,知識密度の増大が一貫した性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 5.3751181534542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved rapid progress, yet their scaling behavior remains less clearly characterized and often less predictable than that of text-only LLMs. Increasing model size and task diversity often yields diminishing returns. In this work, we argue that the primary bottleneck in multimodal scaling is not task format, but knowledge density in training data. We first show that task-specific supervision such as Visual Question Answering (VQA) contributes little incremental semantic information beyond image captions: VQA signals can be reconstructed from captions with negligible performance loss. We then demonstrate that increasing knowledge density -- through structured caption enrichment and cross-modal knowledge injection -- leads to consistent performance improvements across multimodal and downstream benchmarks. Across controlled experiments, performance correlates more strongly with semantic coverage than with task diversity. These findings suggest that current MLLMs fail to scale primarily because training data lacks sufficient knowledge coverage. We advocate for knowledge-centric multimodal training as a principled foundation for scalable multimodal models.
- Abstract(参考訳): MLLM(Multimodal large language model)は急速な進歩を遂げているが、そのスケーリングの振る舞いはテキストのみのLLMよりも明確でなく、予測しにくい。
モデルのサイズとタスクの多様性が増すと、リターンは減少する。
本研究では,マルチモーダルスケーリングの主なボトルネックはタスク形式ではなく,トレーニングデータにおける知識密度であると主張している。
まず,視覚的質問回答(VQA)のようなタスク固有の監督は,画像キャプション以外のインクリメンタルな意味情報をほとんど提供していないことを示す。
次に、構造化キャプションエンリッチメントとクロスモーダル知識インジェクションによる知識密度の増大が、マルチモーダルおよびダウンストリームベンチマーク間の一貫したパフォーマンス改善につながることを実証した。
制御された実験全体において、パフォーマンスはタスクの多様性よりもセマンティックカバレッジと強く相関する。
これらの結果から,現在のMLLMは学習データに十分な知識が不足しているため,スケールアップが困難であることが示唆された。
我々は,スケーラブルなマルチモーダルモデルの基礎として,知識中心型マルチモーダルトレーニングを提唱する。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。
まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。
その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文 参考訳(メタデータ) (2025-04-27T18:56:26Z) - Learning to Instruct for Visual Instruction Tuning [79.76580302615174]
視覚インストラクションチューニング(VIT)の進歩であるL2Tを提案する。
L2Tは、損失関数を命令シーケンスと応答シーケンスの両方に組み込むことによって、シンプルだが効果的なアプローチを採用する。
驚くべきことに、L2Tは極めて基本的な視覚能力を備えており、キャプション性能は最大で18%向上している。
論文 参考訳(メタデータ) (2025-03-28T08:04:51Z) - Visual RAG: Expanding MLLM visual knowledge without fine-tuning [5.341192792319891]
本稿では、文脈から学習するMLLMの機能と検索機構を相乗的に組み合わせたVisual RAGを紹介する。
このようにして、得られたシステムは、トレーニングデータから抽出した知識に限らず、微調整なしで、迅速かつ容易に更新できる。
モデル画像分類性能を改善するための計算コストを大幅に削減し、トレーニングされていない新しい視覚領域やタスクにモデル知識を拡大する。
論文 参考訳(メタデータ) (2025-01-18T17:43:05Z) - Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models [26.964848679914354]
CoKnowは、リッチなコンテキスト知識を備えたビジョンランゲージモデルのためのPrompt Learningを強化するフレームワークである。
我々は11の公開データセットに対して広範な実験を行い、CoKnowが過去の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-04-16T07:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。