論文の概要: From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2602.22859v1
- Date: Thu, 26 Feb 2026 10:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.651621
- Title: From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models
- Title(参考訳): 盲点から利得:大規模マルチモーダルモデルの診断駆動反復訓練
- Authors: Hongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye,
- Abstract要約: 診断駆動進行進化(DPE)は、診断がデータ生成と強化を制御し、それぞれが更新されたモデルを再診断するスパイラルループである。
DPEは障害を特定の弱点とみなし、データ混合物を動的に調整し、ターゲットとする強化のために弱点に焦点を当てたデータを生成するようにエージェントを誘導する。
Qwen3-VL-8B-インストラクトとQwen2.5-VL-7B-インストラクトの実験は、11のベンチマークで安定した連続的なゲインを示した。
- 参考スコア(独自算出の注目度): 34.940968264459805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)のスケールアップと強化学習(RL)手法の成熟に伴い,LMMは複雑な推論や意思決定において顕著な進歩を遂げた。
しかし、トレーニングは依然として静的データと固定されたレシピに依存しているため、機能の盲点の診断や、動的で目標とする強化の提供が困難になる。
テスト駆動型エラー露光とフィードバックに基づく修正は反復的な実践よりも優れており、診断駆動型進行進化(DPE)は、診断がデータ生成と強化を補助するスパイラルループであり、各イテレーションは更新モデルを再診断し、次のターゲット改善を駆動する。
DPEには2つの重要なコンポーネントがある。
まず、複数のエージェントがWeb検索や画像編集などのツールを使って、大量のラベルのないマルチモーダルデータを注釈し、品質を制御し、多様なリアルなサンプルを生成する。
第二に、DPEは特定の弱点に障害を生じさせ、データ混合物を動的に調整し、ターゲットとする強化のために弱点に焦点を当てたデータを生成するようにエージェントを誘導する。
Qwen3-VL-8B-InstructとQwen2.5-VL-7B-Instructの実験は、11のベンチマークで安定した連続的なゲインを示し、DPEがオープンなタスク分布下での連続LMMトレーニングのスケーラブルなパラダイムであることを示している。
私たちのコード、モデル、データはhttps://github.com/hongruijia/DPE.comで公開されています。
関連論文リスト
- LSM-2: Learning from Incomplete Wearable Sensor Data [65.58595667477505]
本稿では,Adaptive and Inherited Masking (AIM)を用いた第2世代Large Sensor Model (LSM-2)を紹介する。
AIMは明示的な計算を必要とせず、不完全なデータから直接堅牢な表現を学習する。
AIMを用いた LSM-2 は, 分類, 回帰, 生成モデルなど, 多様なタスクにまたがる最高の性能を実現する。
論文 参考訳(メタデータ) (2025-06-05T17:57:11Z) - DMRL: Data- and Model-aware Reward Learning for Data Extraction [3.511535517476954]
大規模言語モデル(LLM)は本質的に意図しないプライバシー侵害に対して脆弱である。
本稿では,データ抽出のためのデータ・モデル・アウェア・リワード学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-07T07:21:37Z) - PGAD: Prototype-Guided Adaptive Distillation for Multi-Modal Learning in AD Diagnosis [7.260212065205214]
欠失はアルツハイマー病(AD)の診断において大きな問題となる。
既存のほとんどのメソッドは完全なデータのみをトレーニングし、ADNIのような現実世界のデータセットに不完全なサンプルが多数含まれていることを無視している。
本稿では,不完全なマルチモーダルデータをトレーニングに直接組み込んだPGAD(Prototype-Guided Adaptive Distillation)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-05T14:39:31Z) - What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - DOCTOR: A Multi-Disease Detection Continual Learning Framework Based on Wearable Medical Sensors [3.088223994180069]
ウェアラブル医療センサ(WMS)に基づく多相検出連続学習フレームワークであるDOCTORを提案する。
マルチヘッドディープニューラルネットワーク(DNN)とリプレイスタイルのCLアルゴリズムを採用している。
平均テスト精度は1.43倍、F1スコアは1.25倍、後方転送は0.41倍である。
論文 参考訳(メタデータ) (2023-05-09T19:33:17Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。