論文の概要: APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization
- arxiv url: http://arxiv.org/abs/2506.21655v1
- Date: Thu, 26 Jun 2025 17:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.955679
- Title: APO: Enhancing Reasoning Ability of MLLMs via Asymmetric Policy Optimization
- Title(参考訳): APO:非対称政策最適化によるMLLMの推論能力向上
- Authors: Minjie Hong, Zirun Guo, Yan Xia, Zehan Wang, Ziang Zhang, Tao Jin, Zhou Zhao,
- Abstract要約: MLLM(Multimodal Large Language Models)は多様なデータを統合する能力があるが、複雑な推論に苦しむことが多い。
本研究は,KLのペナルティと過剰思考がMLLMのRLトレーニングにどのように影響するかを検討する。
正試料については,KLの分散重み付けを困難度に基づいて動的に調整するために,DADS(Difficulty-Adaptive Divergence Shaping)を導入している。
負のサンプルに対しては、過度に長い応答をペナルタイズするために、最適軌道複雑度正規化(STCR)を提案する。
- 参考スコア(独自算出の注目度): 43.30674910774084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) are powerful at integrating diverse data, but they often struggle with complex reasoning. While Reinforcement learning (RL) can boost reasoning in LLMs, applying it to MLLMs is tricky. Common issues include a drop in performance on general tasks and the generation of overly detailed or "overthinking" reasoning. Our work investigates how the KL penalty and overthinking affect RL training in MLLMs. We propose Asymmetric Policy Optimization (APO) to address these issues, which divides the sampled responses into positive and negative groups. For positive samples, Difficulty-Adaptive Divergence Shaping (DADS) is introduced to dynamically adjust the KL divergence weight based on their difficulty. This method prevents policy entropy from dropping sharply, improves training stability, utilizes samples better, and preserves the model's existing knowledge. For negative samples, Suboptimal Trajectory Complexity Regularization (STCR) is proposed to penalize overly long responses. This helps mitigate overthinking and encourages more concise reasoning while preserving the model's explorative capacity. We apply our method to Qwen2.5-VL-3B, creating View-R1-3B. View-R1-3B significantly enhances reasoning capabilities, showing an average 7\% gain over the base model and outperforming larger MLLMs (7-11B) on various reasoning benchmarks. Importantly, unlike other reasoning-tuned MLLMs that often degrade on general tasks, View-R1-3B maintains consistent improvement, demonstrating superior generalization. These results highlight the effectiveness and broad applicability of our DADS and STCR techniques for advancing complex multimodal reasoning in MLLMs. The code will be made available at https://github.com/Indolent-Kawhi/View-R1.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は多様なデータを統合する能力があるが、複雑な推論に苦しむことが多い。
強化学習(RL)はLLMの推論を促進するが、MLLMに適用するのは難しい。
一般的な問題としては、一般的なタスクのパフォーマンスの低下や、過度に詳細な、あるいは"過度に考える"推論の生成などが挙げられる。
本研究は,KLのペナルティと過剰思考がMLLMのRLトレーニングにどのように影響するかを検討する。
これらの問題に対処するために、サンプル応答を正と負のグループに分割する非対称政策最適化(APO)を提案する。
正試料については,KLの分散重み付けを困難度に基づいて動的に調整するために,DADS(Difficulty-Adaptive Divergence Shaping)を導入している。
この方法は、政策のエントロピーが急降下するのを防ぎ、トレーニングの安定性を改善し、サンプルをよりよく活用し、モデルの既存の知識を保存する。
負のサンプルに対しては、過度に長い応答をペナルタイズするために、最適軌道複雑度正規化(STCR)を提案する。
これは、過剰な考えを緩和し、モデルの爆発的能力を維持しながら、より簡潔な推論を促進するのに役立つ。
提案手法をQwen2.5-VL-3Bに適用し,ビューR1-3Bを作成する。
View-R1-3B は推論能力を著しく向上させ、ベースモデルよりも平均 7 % 向上し、様々な推論ベンチマークにおいてより大きな MLLM (7-11B) を上回った。
重要なことは、一般的なタスクでしばしば分解される他の推論チューニングMLLMとは異なり、View-R1-3Bは一貫した改善を維持し、より優れた一般化を示す。
これらの結果は,複雑なマルチモーダル推論をMLLMで進めるためのDADSおよびSTCR技術の有効性と適用性を強調した。
コードはhttps://github.com/Indolent-Kawhi/View-R1.comで公開される。
関連論文リスト
- GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning [10.987902254146219]
我々は、推論時間における推論を適応的に強化するために、強化学習(RL)を用いた軽量ナビゲータモデルを訓練する。
RLナビゲータは3Kパラメータ未満で、100BスケールのLLMに匹敵するサブ10BのLLMを作ることができる。
論文 参考訳(メタデータ) (2025-05-20T09:43:33Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-09T20:06:45Z) - Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning [3.0449420665138485]
大規模言語モデル(LLM)は、特に数学において、公式な推論能力への関心を高めている。
そこで本研究では,より弱いLLMからの意見の混合(MoO)を利用して,(相対的に)強いLLM推論を強化するポストトレーニング手法を提案する。
その結果,LLMの考え方を取り入れることで,数学的推論が平均5%向上し,推論作業における多様な視点の価値が浮き彫りになることがわかった。
論文 参考訳(メタデータ) (2025-02-26T23:22:02Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Look Before You Decide: Prompting Active Deduction of MLLMs for Assumptive Reasoning [77.72128397088409]
本研究は,MLLMの最も普及している手法が,その問題に先入観を導入することで,容易に騙せることを示す。
また,モデルが積極的に複合推論を行うように促す新しい強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-04-19T15:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。