論文の概要: RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training
- arxiv url: http://arxiv.org/abs/2602.12892v1
- Date: Fri, 13 Feb 2026 12:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.952466
- Title: RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training
- Title(参考訳): RADAR:MLLMプレトレーニングにおける非対称な能力開発
- Authors: Yunshuang Nie, Bingqian Lin, Minzhe Niu, Kun Xiang, Jianhua Han, Guowei Huang, Xingyue Quan, Hang Xu, Bokui Chen, Xiaodan Liang,
- Abstract要約: 事前訓練されたマルチモーダル大言語モデル(MLLM)は、ポストトレーニングのための知識豊富な基盤を提供する。
現在の評価は、厳格な追加トレーニングと自己回帰的復号コストを導入する、教師付き微調整後のテストに依存している。
MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
- 参考スコア(独自算出の注目度): 59.493415006017635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Multi-modal Large Language Models (MLLMs) provide a knowledge-rich foundation for post-training by leveraging their inherent perception and reasoning capabilities to solve complex tasks. However, the lack of an efficient evaluation framework impedes the diagnosis of their performance bottlenecks. Current evaluation primarily relies on testing after supervised fine-tuning, which introduces laborious additional training and autoregressive decoding costs. Meanwhile, common pre-training metrics cannot quantify a model's perception and reasoning abilities in a disentangled manner. Furthermore, existing evaluation benchmarks are typically limited in scale or misaligned with pre-training objectives. Thus, we propose RADAR, an efficient ability-centric evaluation framework for Revealing Asymmetric Development of Abilities in MLLM pRe-training. RADAR involves two key components: (1) Soft Discrimination Score, a novel metric for robustly tracking ability development without fine-tuning, based on quantifying nuanced gradations of the model preference for the correct answer over distractors; and (2) Multi-Modal Mixture Benchmark, a new 15K+ sample benchmark for comprehensively evaluating pre-trained MLLMs' perception and reasoning abilities in a 0-shot manner, where we unify authoritative benchmark datasets and carefully collect new datasets, extending the evaluation scope and addressing the critical gaps in current benchmarks. With RADAR, we comprehensively reveal the asymmetric development of perceptual and reasoning capabilities in pretrained MLLMs across diverse factors, including data volume, model size, and pretraining strategy. Our RADAR underscores the need for a decomposed perspective on pre-training ability bottlenecks, informing targeted interventions to advance MLLMs efficiently. Our code is publicly available at https://github.com/Nieysh/RADAR.
- Abstract(参考訳): MLLM (Pre-trained Multi-modal Large Language Models) は、複雑なタスクを解決するために、その固有の認識と推論能力を活用することで、ポストトレーニングのための知識豊富な基盤を提供する。
しかし、効率的な評価フレームワークが欠如していることは、パフォーマンスボトルネックの診断を妨げている。
現在の評価は、主に教師付き微調整後のテストに依存しており、これには厳しい追加訓練と自己回帰的復号コストが伴う。
一方、一般的な事前学習のメトリクスは、モデルの知覚と推論能力を歪曲した方法で定量化できない。
さらに、既存の評価ベンチマークは、通常、スケールに制限されているか、トレーニング済みの目標と不一致している。
そこで本稿では,MLLM pRe トレーニングにおける非対称性向上のための効率的な能力中心評価フレームワーク RADAR を提案する。
RADARは,(1)微調整なしで能力開発を堅牢に追跡する新しい指標であるSoft Discrimination Scoreと,(2)事前学習したMLLMの知覚と推論能力を0ショットで総合的に評価する15K以上のサンプルベンチマークであるMulti-Modal Mixture Benchmarkの2つを主成分として,権威のあるベンチマークデータセットを統一し,新しいデータセットを慎重に収集し,評価範囲を拡張し,現在のベンチマークにおける重要なギャップに対処する。
RADARでは,データ量,モデルサイズ,事前学習戦略など多種多様な要素にまたがる事前学習MLLMにおける知覚・推論能力の非対称的発達を包括的に明らかにする。
我々のRADARは、事前訓練能力のボトルネックを分解して、MLLMを効率的に進めるために標的の介入を通知する必要性を浮き彫りにしている。
私たちのコードはhttps://github.com/Nieysh/RADAR.comで公開されています。
関連論文リスト
- Towards Lifecycle Unlearning Commitment Management: Measuring Sample-level Unlearning Completeness [30.596695293390415]
補間近似測定(Interpolated Approximate Measurement, IAM)は、非学習推論用に設計されたフレームワークである。
IAMは、クエリされたサンプルに対するモデルの一般化適合行動ギャップを補間することにより、サンプルレベルの未学習完全性を定量化する。
IAMを最近の近似アンラーニングアルゴリズムに適用し、オーバーアンラーニングとアンダーアンラーニングの両方のリスクを明らかにする。
論文 参考訳(メタデータ) (2025-06-06T14:22:18Z) - Teach2Eval: An Indirect Evaluation Method for LLM by Judging How It Teaches [46.0474342507327]
Feynman Techniqueにインスパイアされた間接評価フレームワークであるTeach2Evalを紹介する。
本手法は、より弱い学生モデルにタスクを効果的に実行させるためのモデルの複数の能力を評価する。
論文 参考訳(メタデータ) (2025-05-18T06:51:10Z) - Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective [7.408649506385476]
大規模言語モデル(LLM)トレーニングのエスカレートスケールとコストは、下流タスク性能の正確な事前トレーニング予測を必要とする。
現在の予測手法には精度と信頼性が欠けている。
本稿では,下流性能予測のためのクラスタリングオンディフルティ(COD)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T15:44:57Z) - Beyond Scaling: Measuring and Predicting the Upper Bound of Knowledge Retention in Language Model Pre-Training [68.94373533768501]
我々は、知識保持をモデル化し、そのコーパスから事実情報を記憶するための事前学習言語モデルの能力を示し、学習前にそれを推定する原則的手法を導入する。
本稿では,知識周波数,知識特異度,モデルサイズを統合し,クローズドブック質問応答(QA)の精度を予測する情報理論予測器である,サイズ依存型相互情報(SMI)を提案する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - Training an LLM-as-a-Judge Model: Pipeline, Insights, and Practical Lessons [9.954960702259918]
本稿では,文脈認識評価を行うLLM(en:en:en:en:en:en:en:en:LLMs)ジャッジであるThemisを紹介する。
Themisの開発パイプラインの概要を概観し、シナリオに依存した評価プロンプトを強調します。
メタ評価のための人間ラベル付きベンチマークを2つ導入し、テミスが人間の嗜好を経済的に高度に調整できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T08:35:55Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。