論文の概要: Data Organization Matters in Multimodal Instruction Tuning: A Controlled Study of Capability Trade-offs
- arxiv url: http://arxiv.org/abs/2603.27744v1
- Date: Sun, 29 Mar 2026 15:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.096782
- Title: Data Organization Matters in Multimodal Instruction Tuning: A Controlled Study of Capability Trade-offs
- Title(参考訳): マルチモーダル・インストラクション・チューニングにおけるデータ・オーガナイゼーションの課題:能力トレードオフの制御された研究
- Authors: Guowei Tang,
- Abstract要約: 我々は,データ構造が一般理解,構造化推論,微粒化OCR/文書理解のトレードオフに与える影響について検討した。
直接混合、カリキュラムトレーニング、バランスの取れたサンプリング、リバースカリキュラムの4つの戦略を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent multimodal large language models (MLLMs) perform strongly on general visual understanding, diagram and chart reasoning, and document-centric perception. However, these abilities are learned from heterogeneous supervision sources with very different task structures and learning demands, and the effect of their temporal organization during training remains underexplored. We study whether data organization affects the trade-off among general understanding, structured reasoning, and fine-grained OCR/document understanding in multimodal instruction tuning. To isolate this factor, we use a controlled three-stage training framework in which the backbone, trainable modules, and optimization pipeline are fixed across all runs, and only the temporal arrangement of post-alignment supervision is changed. We compare four strategies: direct mixture, curriculum training, balanced sampling, and reverse curriculum. Experiments on general visual instruction following, diagram reasoning, chart reasoning, scene-text question answering, and document question answering show that data organization is a first-order design variable in multimodal adaptation. Curriculum training gives the best overall trade-off and the strongest structured reasoning performance. Balanced sampling is better for OCR-oriented capability but weakens the broader capability balance. Reverse curriculum performs worst in both final performance and optimization stability. Training-dynamics analysis further suggests that building general understanding and reasoning before introducing OCR-intensive supervision leads to smoother optimization and faster convergence. These findings highlight data scheduling as an explicit design dimension for multimodal model adaptation.
- Abstract(参考訳): 最近の多モード大言語モデル(MLLM)は、一般的な視覚的理解、図表とチャートの推論、文書中心の知覚に強く依存している。
しかし、これらの能力は、非常に異なるタスク構造と学習要求を持つ異質な監督源から学習され、訓練中の時間的組織の影響は未解明のままである。
マルチモーダル命令のチューニングにおいて,データ構造が一般的な理解,構造化推論,微粒化OCR/文書理解のトレードオフに影響を与えるかを検討する。
この要因を分離するために、バックボーン、トレーニング可能なモジュール、最適化パイプラインを全走行で固定し、調整後の監督の時間的配置を変更する3段階のトレーニングフレームワークを使用する。
直接混合、カリキュラムトレーニング、バランスの取れたサンプリング、リバースカリキュラムの4つの戦略を比較した。
一般的な視覚指導,図形推論,図形推論,シーンテキスト質問応答,文書質問応答による実験は,データ構造がマルチモーダル適応における一階設計変数であることを示唆している。
カリキュラムトレーニングは、最高のトレードオフと最も強力な構造化推論パフォーマンスを提供します。
バランスの取れたサンプリングは、OCR指向の能力ではよいが、より広範な能力のバランスを弱める。
逆のカリキュラムは、最終的なパフォーマンスと最適化の安定性の両方で最悪です。
トレーニング力学解析は、OCR集中的な監視を導入する前に一般的な理解と推論を構築することで、よりスムーズな最適化とより高速な収束をもたらすことを示唆している。
これらの結果は、マルチモーダルモデル適応のための明示的な設計次元として、データスケジューリングを強調している。
関連論文リスト
- Agentic Planning with Reasoning for Image Styling via Offline RL [66.10749901925941]
直接的なプロンプトベースの編集は複雑な変換では失敗するが、なぜなら曖昧で主観的なプロンプトは、画像に何を変更するべきかを微妙に理解する必要がしばしばあるからである。
ツールベースのエージェントRLポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T11:14:37Z) - Start Small, Think Big: Curriculum-based Relative Policy Optimization for Visual Grounding [23.138205646078536]
CoT(Chain-of-Thought)プロンプトは、最近、様々なNLPおよびコンピュータビジョンタスクで大きな可能性を示している。
強化学習(RL)に基づく微調整CoT推論は,視覚グラウンディングタスクの性能をパラドックス的に劣化させる可能性がある。
我々は,CoT長と一般化されたインターセクションを用いた新たなトレーニング戦略であるCuRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T21:22:50Z) - Revisit the Imbalance Optimization in Multi-task Learning: An Experimental Analysis [44.410446932443]
マルチタスク学習(MTL)は、1つのネットワークをトレーニングして複数のタスクを共同実行することで汎用的な視覚システムを構築することを目的としている。
期待されているが、そのポテンシャルは「不均衡な最適化」によって妨げられることが多い。
本稿では,この持続的問題に寄与する要因を解明するための系統的な実験的検討を行った。
論文 参考訳(メタデータ) (2025-09-28T14:40:06Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。
第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する
第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - RaCT: Ranking-aware Chain-of-Thought Optimization for LLMs [30.216174551427443]
大規模言語モデル(LLM)は、テキスト再ランクタスクにおいて顕著な可能性を示している。
LLMをランク付けタスクに特化するための従来の微調整手法は、しばしばモデルの汎用能力を著しく低下させる。
本稿では,CoT(Chain-of-Thought)と革新的な2段階トレーニングパイプラインを戦略的に組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2024-12-18T23:24:15Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。