論文の概要: Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization
- arxiv url: http://arxiv.org/abs/2602.21743v2
- Date: Thu, 26 Feb 2026 06:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 14:31:24.029856
- Title: Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization
- Title(参考訳): 難解群正規化による多モードLLM推論の強化
- Authors: Jinghan Li, Junfeng Fang, Jinda Lu, Yuan Wang, Xiaoyan Guo, Tianyu Zhang, Xiang Wang, Xiangnan He,
- Abstract要約: 難解群正規化(Durian)を提案する。
提案手法はグループ内での区別を保ちながら極端なケースに対する感受性を排除し,複数のマルチモーダル推論ベンチマークにおいて有意な性能向上をもたらす。
- 参考スコア(独自算出の注目度): 38.26061472669552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) and Group Relative Policy Optimization (GRPO) have significantly advanced the reasoning capabilities of large language models. Extending these methods to multimodal settings, however, faces a critical challenge: the instability of std-based normalization, which is easily distorted by extreme samples with nearly positive or negative rewards. Unlike pure-text LLMs, multimodal models are particularly sensitive to such distortions, as both perceptual and reasoning errors influence their responses. To address this, we characterize each sample by its difficulty, defined through perceptual complexity (measured via visual entropy) and reasoning uncertainty (captured by model confidence). Building on this characterization, we propose difficulty-aware group normalization (Durian), which re-groups samples by difficulty levels and shares the std within each group. Our approach preserves GRPO's intra-group distinctions while eliminating sensitivity to extreme cases, yielding significant performance gains across multiple multimodal reasoning benchmarks.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) と Group Relative Policy Optimization (GRPO) は、大規模言語モデルの推論能力を大幅に向上させた。
しかし、これらの手法をマルチモーダルな設定に拡張することは、stdベースの正規化の不安定性という重大な課題に直面している。
純粋テキストLLMとは異なり、マルチモーダルモデルは知覚的および推論的誤りが応答に影響を与えるため、そのような歪みに特に敏感である。
これを解決するために、各サンプルの難易度を、知覚複雑性(視覚的エントロピーによる計測)と不確実性(モデル信頼度による解析)によって特徴づける。
この特徴に基づいて,難解群正規化(Durian)を提案する。
提案手法は,グループ内におけるGRPOの区別を保ちながら,極端なケースに対する感受性を排除し,複数のマルチモーダル推論ベンチマークにおいて有意な性能向上をもたらす。
関連論文リスト
- Beyond Exponential Decay: Rethinking Error Accumulation in Large Language Models [0.0]
エラーは均一に分散されていないが、重要な決定ジャンクションを表すスパースな"キートークン"に集中していることを示す。
本稿では,意味的に重要なトークンを選択的に保存することを目的とした次世代システムのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:57:31Z) - Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models [16.405694961196925]
視覚言語モデル(VLM)はマルチモーダルタスク、特に構成推論(CR)タスクに必須である。
既存の手法は主にテキストベースのハードネガティブサンプルを生成することによってモデルを微調整する。
AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
論文 参考訳(メタデータ) (2025-05-21T14:28:43Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。