Fugu-MT 論文翻訳(概要): Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

論文の概要: Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

arxiv url: http://arxiv.org/abs/2602.21743v2
Date: Thu, 26 Feb 2026 06:20:05 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 14:31:24.029856
Title: Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization
Title（参考訳）: 難解群正規化による多モードLLM推論の強化
Authors: Jinghan Li, Junfeng Fang, Jinda Lu, Yuan Wang, Xiaoyan Guo, Tianyu Zhang, Xiang Wang, Xiangnan He,
Abstract要約: 難解群正規化(Durian)を提案する。提案手法はグループ内での区別を保ちながら極端なケースに対する感受性を排除し,複数のマルチモーダル推論ベンチマークにおいて有意な性能向上をもたらす。
参考スコア（独自算出の注目度）: 38.26061472669552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) and Group Relative Policy Optimization (GRPO) have significantly advanced the reasoning capabilities of large language models. Extending these methods to multimodal settings, however, faces a critical challenge: the instability of std-based normalization, which is easily distorted by extreme samples with nearly positive or negative rewards. Unlike pure-text LLMs, multimodal models are particularly sensitive to such distortions, as both perceptual and reasoning errors influence their responses. To address this, we characterize each sample by its difficulty, defined through perceptual complexity (measured via visual entropy) and reasoning uncertainty (captured by model confidence). Building on this characterization, we propose difficulty-aware group normalization (Durian), which re-groups samples by difficulty levels and shares the std within each group. Our approach preserves GRPO's intra-group distinctions while eliminating sensitivity to extreme cases, yielding significant performance gains across multiple multimodal reasoning benchmarks.
Abstract（参考訳）: Reinforcement Learning with Verifiable Rewards (RLVR) と Group Relative Policy Optimization (GRPO) は、大規模言語モデルの推論能力を大幅に向上させた。しかし、これらの手法をマルチモーダルな設定に拡張することは、stdベースの正規化の不安定性という重大な課題に直面している。純粋テキストLLMとは異なり、マルチモーダルモデルは知覚的および推論的誤りが応答に影響を与えるため、そのような歪みに特に敏感である。これを解決するために、各サンプルの難易度を、知覚複雑性(視覚的エントロピーによる計測)と不確実性(モデル信頼度による解析)によって特徴づける。この特徴に基づいて,難解群正規化(Durian)を提案する。提案手法は,グループ内におけるGRPOの区別を保ちながら,極端なケースに対する感受性を排除し,複数のマルチモーダル推論ベンチマークにおいて有意な性能向上をもたらす。

関連論文リスト

DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage [83.64031699341862]
グループ相対的政策最適化(GRPO)による強化学習は、マルチモーダル大言語モデル(MLLM)の推論能力を高めるための広く採用されているアプローチとなっている。 GRPOは、批判なしに長鎖推論を可能にするが、難しい問題に対する微妙な報酬と、グループレベルの報酬が過度に簡単あるいは難しい問題に対して一貫性が過ぎる場合の利点に悩まされることが多い。グローバルな視点から可変困難分布を調整する難易度適応型変分法であるDIVA-GRPOを提案する。
論文参考訳（メタデータ） (2026-03-01T13:47:35Z)
Harnessing Consistency for Robust Test-Time LLM Ensemble [88.55393815158608]
CoREは、堅牢なLLMアンサンブルにモデル一貫性を利用するプラグイン・アンド・プレイ技術である。トークンレベルの一貫性は、ダウンウェイト不確実なトークンにローパスフィルタを適用することで、きめ細かい不一致を捕捉する。モデルレベルの一貫性は、自己自信の高いモデル出力を促進することで、グローバルな合意をモデル化する。
論文参考訳（メタデータ） (2025-10-12T04:18:45Z)
Beyond Exponential Decay: Rethinking Error Accumulation in Large Language Models [0.0]
エラーは均一に分散されていないが、重要な決定ジャンクションを表すスパースな"キートークン"に集中していることを示す。本稿では,意味的に重要なトークンを選択的に保存することを目的とした次世代システムのためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-05-30T03:57:31Z)
Visual Perturbation and Adaptive Hard Negative Contrastive Learning for Compositional Reasoning in Vision-Language Models [16.405694961196925]
視覚言語モデル(VLM)はマルチモーダルタスク、特に構成推論(CR)タスクに必須である。既存の手法は主にテキストベースのハードネガティブサンプルを生成することによってモデルを微調整する。 AHNPLはテキストベースのハードネガティブを視覚領域に翻訳し、モデルをトレーニングするために意味的に乱された画像ベースのネガティブを生成する。
論文参考訳（メタデータ） (2025-05-21T14:28:43Z)
Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-04-15T21:02:48Z)
Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。グループDROフレームワークをQ-Diversityを提案して再構築する。インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文参考訳（メタデータ） (2023-05-20T07:02:27Z)
Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文参考訳（メタデータ） (2023-04-23T13:54:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。