論文の概要: MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization
- arxiv url: http://arxiv.org/abs/2510.08540v1
- Date: Thu, 09 Oct 2025 17:53:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.286957
- Title: MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization
- Title(参考訳): MM-HELIX:ホリスティックプラットフォームとアダプティブハイブリッドポリシ最適化によるマルチモーダル長鎖反射推論の高速化
- Authors: Xiangyu Zhao, Junming Lin, Tianhao Liang, Yifan Zhou, Wenhao Chai, Yuzhe Gu, Weiyun Wang, Kai Chen, Gen Luo, Wenwei Zhang, Junchi Yan, Hua Yang, Haodong Duan, Xue Yang,
- Abstract要約: ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
- 参考スコア(独自算出の注目度): 103.74675519953898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While current Multimodal Large Language Models (MLLMs) have demonstrated proficiency in reasoning tasks such as mathematics and logic, their capacity for long-chain reflective reasoning, a prerequisite for solving complex real-world problems, remains largely underexplored. In this work, we first conduct an extensive empirical investigation to evaluate this capability. Leveraging a carefully designed data synthesis engine, we construct MM-HELIX, a multimodal benchmark consisting 1,260 samples of 42 challenging synthetic tasks that require iterative thinking and backtracking. Empirical results on this benchmark reveal that existing MLLMs exhibit significant performance deficits in long-chain reflective reasoning. To address this limitation, we generate post-training data and further explore learning paradigms for exploiting such data. We first develop the Step-Elicited Response Generation pipeline to create MM-HELIX-100K, a large-scale dataset of 100k high-quality, reflective reasoning traces for instruction-tuning stage. Given that standard Reinforcement Learning fails on complex tasks due to sparse reward signals and catastrophic forgetting after Supervised Fine-Tuning, we propose Adaptive Hybrid Policy Optimization (AHPO), a novel training strategy that dynamically unifies offline supervision and online optimization into a single stage. This strategy enables the model to learn from expert data when rewards are sparse and conduct independent exploration once proficient. When applied to the Qwen2.5-VL-7B baseline, our method achieves a +18.6\% accuracy improvement on MM-HELIX benchmark and demonstrates strong generalization with a +5.7\% average performance gain on general mathematic and logic tasks. Our work demonstrate that reflective reasoning in MLLMs can be effectively learned and generalized, paving the way for developing more capable MLLMs.
- Abstract(参考訳): 現在のMLLM(Multimodal Large Language Models)は、数学や論理学などの推論の習熟度を示しているが、その長鎖反射推論の能力は、複雑な現実世界の問題を解決するための前提条件であり、いまだに未熟である。
本研究は,まず,この能力を評価するための広範な実証調査を行う。
慎重に設計したデータ合成エンジンを活用し、反復的思考とバックトラックを必要とする42の課題合成タスクの1,260のサンプルからなるマルチモーダルベンチマークであるMM-HELIXを構築した。
このベンチマークによる実験結果から,既存のMLLMは長鎖反射的推論において大きな性能低下を示すことが明らかとなった。
この制限に対処するために、トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムをさらに探求する。
そこで我々はまず,100kの大規模データセットであるMM-HELIX-100Kを作成するために,Steep-Elicited Response Generationパイプラインを開発した。
適応型ハイブリッド政策最適化 (Adaptive Hybrid Policy Optimization, AHPO) は, オフライン監視とオンライン最適化を動的に一つの段階に統一する新しい学習手法である。
この戦略は、報酬が不足しているときに専門家データからモデルを学習し、一度熟達すれば独立した探索を行うことを可能にする。
Qwen2.5-VL-7B ベースラインに適用すると,MM-HELIX ベンチマークの精度が +18.6 % 向上し,一般的な数学的および論理的タスクにおける平均性能ゲインが +5.7 % であることを示す。
我々の研究は,MLLMにおける反射的推論を効果的に学習し,一般化し,より有能なMLLMを開発するための道を開くことを実証している。
関連論文リスト
- MetaLLMix : An XAI Aided LLM-Meta-learning Based Approach for Hyper-parameters Optimization [0.0]
メタ学習,説明可能なAI,効率的なLLM推論を組み合わせたフレームワークであるMetaLLMiXを提案する。
また,MetaLLMiXは,計算コストを大幅に削減しつつ,従来のHPO法と競合し,優れた性能を発揮することを示す。
ローカルデプロイメントは、従来のAPIベースのアプローチよりも優れており、8つのタスクのうち5つで最適な結果、レスポンスタイムの99.6-99.9%、データセット6つで最速のトレーニング時間(2.4-15.7倍高速)を達成しています。
論文 参考訳(メタデータ) (2025-09-11T12:06:34Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning [3.364797975300393]
マルチモーダル大規模言語モデル(MLLM)の推論能力向上を目的とした新しいフレームワークであるObserve-R1を提案する。
我々は,RL学習におけるデータサンプルの難易度と難易度に応じて整理し,サンプル化したNeuraLadderデータセットを構築した。
Qwen2.5-VL-3B と Qwen2.5-VL-7B のニューララダーデータセットから得られた20kサンプルによる実験により、Observe-R1 は推論と一般的なベンチマークの両方において、より大きな推論モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-18T14:08:03Z) - How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。
本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。
私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文 参考訳(メタデータ) (2025-04-01T14:18:38Z) - Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-09T20:06:45Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。