論文の概要: Closing the Gap: Data-Centric Fine-Tuning of Vision Language Models for the Standardized Exam Questions
- arxiv url: http://arxiv.org/abs/2512.00042v1
- Date: Fri, 14 Nov 2025 14:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.402014
- Title: Closing the Gap: Data-Centric Fine-Tuning of Vision Language Models for the Standardized Exam Questions
- Title(参考訳): ギャップを閉じる:標準化されたエクサム質問のためのビジョン言語モデルのデータ中心の微調整
- Authors: Egemen Sert, Şeyda Ertekin,
- Abstract要約: 高品質なデータによる教師付き微調整は、プロプライエタリなアプローチと競合する可能性があることを示す。
以上の結果から,データ合成と表現構文がマルチモーダル推論において決定的な役割を果たすことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal reasoning has become a cornerstone of modern AI research. Standardized exam questions offer a uniquely rigorous testbed for such reasoning, providing structured visual contexts and verifiable answers. While recent progress has largely focused on algorithmic advances such as reinforcement learning (e.g., GRPO, DPO), the data centric foundations of vision language reasoning remain less explored. We show that supervised fine-tuning (SFT) with high-quality data can rival proprietary approaches. To this end, we compile a 161.4 million token multimodal dataset combining textbook question-solution pairs, curriculum aligned diagrams, and contextual materials, and fine-tune Qwen-2.5VL-32B using an optimized reasoning syntax (QMSA). The resulting model achieves 78.6% accuracy, only 1.0% below Gemini 2.0 Flash, on our newly released benchmark YKSUniform, which standardizes 1,854 multimodal exam questions across 309 curriculum topics. Our results reveal that data composition and representational syntax play a decisive role in multimodal reasoning. This work establishes a data centric framework for advancing open weight vision language models, demonstrating that carefully curated and curriculum-grounded multimodal data can elevate supervised fine-tuning to near state-of-the-art performance.
- Abstract(参考訳): マルチモーダル推論は、現代のAI研究の基盤となっている。
標準化された試験質問は、そのような推論のための独特な厳格なテストベッドを提供し、構造化された視覚的コンテキストと検証可能な回答を提供する。
最近の進歩は、強化学習(GRPO、DPOなど)のようなアルゴリズムの進歩に大きく焦点が当てられているが、データ中心の視覚言語推論の基礎はいまだ研究されていない。
高品質なデータを用いた教師付き微調整(SFT)は、プロプライエタリなアプローチと競合する可能性があることを示す。
この目的のために、教科書の質問解決ペア、カリキュラムの整列図、文脈資料、そして最適化された推論構文(QMSA)を用いた微調整Qwen-2.5VL-32Bを組み合わせた161.4万のトークンマルチモーダルデータセットをコンパイルする。
得られたモデルは78.6%の精度で、Gmini 2.0 Flashよりわずか1.0%低い。
以上の結果から,データ合成と表現構文がマルチモーダル推論において決定的な役割を果たすことが明らかとなった。
この研究は、オープンウェイトビジョン言語モデルを進化させるためのデータ中心のフレームワークを確立し、注意深くキュレーションされ、カリキュラム化されたマルチモーダルデータは、監督された微調整を最先端のパフォーマンスに高めることができることを示した。
関連論文リスト
- Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling [0.0]
視覚的質問応答への現在のアプローチは、科学データ解釈に必要な正確さに苦慮することが多い。
我々はSciVQA 2025の共有課題に対して,学術論文からの科学的数字に基づく視覚的・非視覚的質問への回答に焦点をあてる。
本研究は,視覚的質問応答におけるモデルの性能向上における,迅速な最適化,連鎖推論,アンサンブルモデリングの有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-07-08T17:05:42Z) - EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios [41.370448581863194]
教育シナリオに適した最初の多様なベンチマークを紹介します。
本稿では,教師と学生の両方に関係のある12つの重要な側面をカバーする多次元評価指標を提案する。
構築したデータセット上で比較的小規模なモデルをトレーニングし、最先端の大規模モデルに匹敵するパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2025-05-22T03:01:28Z) - MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models [50.43793764203352]
実世界のK-12試験を通してMLLMの推論能力を評価する多分野ベンチマークであるMDK12-Benchを紹介する。
本ベンチマークは,小学校から12年生までの様々な難易度にまたがる140Kの推論事例からなる。
6,827のインスタンスレベルの知識ポイントアノテーションが,十分に整理された知識構造,詳細な回答説明,難易度ラベル,年次分割に基づいている。
論文 参考訳(メタデータ) (2025-04-08T08:06:53Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。