論文の概要: Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View
- arxiv url: http://arxiv.org/abs/2511.06722v1
- Date: Mon, 10 Nov 2025 05:31:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.091172
- Title: Revisiting the Data Sampling in Multimodal Post-training from a Difficulty-Distinguish View
- Title(参考訳): 難易度を考慮したマルチモーダルポストトレーニングにおけるデータサンプリングの再検討
- Authors: Jianyu Qi, Ding Zou, Wenrui Yan, Rui Ma, Jiaxu Li, Zhijie Zheng, Zhiguo Yang, Rongchang Zhao,
- Abstract要約: マルチモーダル推論のための2つの難解なサンプリング手法を提案する。
本稿では, プログレッシブ・イメージ・セマンティック・マスキング(PISM)が, 画像の系統的劣化を通じてサンプル硬さを定量化することを示す。
また、相互モダリティ・アテンション・バランス(CMAB)が相互の相互作用の複雑さを評価することも示している。
- 参考スコア(独自算出の注目度): 10.95044674432639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLLMs) have spurred significant progress in Chain-of-Thought (CoT) reasoning. Building on the success of Deepseek-R1, researchers extended multimodal reasoning to post-training paradigms based on reinforcement learning (RL), focusing predominantly on mathematical datasets. However, existing post-training paradigms tend to neglect two critical aspects: (1) The lack of quantifiable difficulty metrics capable of strategically screening samples for post-training optimization. (2) Suboptimal post-training paradigms that fail to jointly optimize perception and reasoning capabilities. To address this gap, we propose two novel difficulty-aware sampling strategies: Progressive Image Semantic Masking (PISM) quantifies sample hardness through systematic image degradation, while Cross-Modality Attention Balance (CMAB) assesses cross-modal interaction complexity via attention distribution analysis. Leveraging these metrics, we design a hierarchical training framework that incorporates both GRPO-only and SFT+GRPO hybrid training paradigms, and evaluate them across six benchmark datasets. Experiments demonstrate consistent superiority of GRPO applied to difficulty-stratified samples compared to conventional SFT+GRPO pipelines, indicating that strategic data sampling can obviate the need for supervised fine-tuning while improving model accuracy. Our code will be released at https://github.com/qijianyu277/DifficultySampling.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、CoT(Chain-of-Thought)推論に大きな進歩をもたらした。
Deepseek-R1の成功に基づいて、研究者は、マルチモーダル推論を強化学習(RL)に基づく後学習パラダイムに拡張し、主に数学的データセットに焦点を当てた。
しかし,既存のポストトレーニングのパラダイムは,(1)学習後最適化のためのサンプルを戦略的にスクリーニングできる定量的な難易度指標の欠如という2つの重要な側面を無視する傾向にある。
2)認知と推論能力の両立に失敗する準最適後学習パラダイム。
プログレッシブ・イメージ・セマンティック・マスキング(PISM)は画像の系統的劣化によってサンプルの硬さを定量化し,クロスモダリティ・アテンション・バランシング(CMAB)は注意分布解析によって異種間相互作用の複雑さを評価する。
これらの指標を活用することで、GRPOのみとSFT+GRPOハイブリッドトレーニングパラダイムの両方を組み込んだ階層的なトレーニングフレームワークを設計し、6つのベンチマークデータセットで評価する。
実験により,従来のSFT+GRPOパイプラインと比較して,GRPOが一貫した優位性を示すとともに,モデル精度を向上しつつ,教師付き微調整の必要性を回避できることが示唆された。
私たちのコードはhttps://github.com/qijianyu277/DifficultySampling.comでリリースされます。
関連論文リスト
- CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Reasoning with Sampling: Your Base Model is Smarter Than You Think [52.639108524651846]
本稿では,基本モデル自身の可能性を利用した単純な反復サンプリングアルゴリズムを提案する。
我々のアルゴリズムは、ほぼ一致し、RLのアルゴリズムよりも優れているという推論において、大幅に向上することを示した。
我々の方法は、トレーニング、キュレートされたデータセット、検証器を必要としない。
論文 参考訳(メタデータ) (2025-10-16T17:18:11Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - Improving the Reasoning of Multi-Image Grounding in MLLMs via Reinforcement Learning [28.111812077758845]
MLLM(Multimodal Large Language Models)は、テキスト参照を持つ単一画像シナリオにおいて、視覚的グラウンド化に優れる。
しかし、複雑なマルチイメージ合成とマルチモーダル命令を含む実世界のアプリケーションを扱う場合、パフォーマンスは劣化する。
我々は、強化学習に基づくポストトレーニング戦略を採用し、マルチイメージグラウンドタスクにおけるMLLMの推論を改善する。
論文 参考訳(メタデータ) (2025-07-01T13:48:57Z) - Unlocking the Potential of Difficulty Prior in RL-based Multimodal Reasoning [69.64809103333839]
先行情報に対する問題の難易度を明示的にモデル化し,多モーダル推論における強化学習に基づく微調整の有効性を検証した。
提案手法は,2段階学習データのみを2K+0.6Kとする多モード数学的推論ベンチマークにおいて有意な性能を示す。
論文 参考訳(メタデータ) (2025-05-19T15:43:10Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。