論文の概要: Reinforcing Multimodal Reasoning Against Visual Degradation
- arxiv url: http://arxiv.org/abs/2605.09262v1
- Date: Sun, 10 May 2026 02:17:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.150038
- Title: Reinforcing Multimodal Reasoning Against Visual Degradation
- Title(参考訳): 視覚劣化に対するマルチモーダル推論の強化
- Authors: Rui Liu, Dian Yu, Haolin Liu, Yucheng Shi, Tong Zheng, Runpeng Dai, Haitao Mi, Pratap Tokekar, Leoweiliang,
- Abstract要約: 視覚的劣化に対する推論を強化するために最適化力学を改良したRLフレームワークを提案する。
本手法は, GRPO上の不明瞭な汚損に対して+2.4%, +2.3%の堅牢性を向上し, 清潔な精度を実現した。
- 参考スコア(独自算出の注目度): 40.90242778291155
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning has significantly advanced the reasoning capabilities of Multimodal Large Language Models (MLLMs), yet the resulting policies remain brittle against real-world visual degradations such as blur, compression artifacts, and low-resolution scans. Prior robustness techniques from vision and deep RL rely on static data augmentation or value-based regularization, neither of which transfers cleanly to critic-free RL fine-tuning of autoregressive MLLMs. Reinforcing reasoning against such corruptions is non-trivial: naively injecting degraded views during rollout induces reward poisoning, where perceptual occlusions trigger hallucinated trajectories and destabilize optimization. We propose ROMA, an RL fine-tuning framework that modifies the optimization dynamics to reinforce reasoning against visual degradation while preserving clean-input performance. A dual-forward-pass strategy uses teacher forcing to evaluate corrupted views against clean-image trajectories, avoiding new rollouts on degraded inputs. For distributional consistency, we apply a token-level surrogate KL penalty against the worst-case augmentation; to prevent policy collapse under regularization, an auxiliary policy gradient loss anchored to clean-image advantages preserves a reliable reward signal; and to avoid systematically incorrect invariance, correctness-conditioned regularization restricts enforcement to successful trajectories. On Qwen3-VL 4B/8B across seven multimodal reasoning benchmarks, our method improves robustness by +2.4% on seen and +2.3% on unseen corruptions over GRPO while matching clean accuracy.
- Abstract(参考訳): 強化学習はMLLM(Multimodal Large Language Models)の推論能力を大幅に向上させたが、結果として得られるポリシーは、ぼやけや圧縮品、低解像度スキャンといった現実の視覚的劣化に対して脆弱なままである。
視覚と深部RLの従来のロバスト性技術は静的データ拡張や値ベース正規化に依存しており、どちらも自動回帰MLLMの批判のないRL微調整にきれいに変換するものではない。
このような汚職に対する推論の強化は、簡単ではない:ロールアウト中に劣化した見解を鼻で注入すると、報酬中毒が引き起こされ、知覚的閉塞が幻覚的軌跡を誘発し、最適化を不安定にする。
クリーンなインプット性能を維持しつつ、視覚的劣化に対する推論を強化するために最適化ダイナミクスを改良したRLファインチューニングフレームワークROMAを提案する。
デュアルフォワードパス戦略では、教師の強制力を使って、クリーンイメージの軌跡に対する破損したビューを評価し、劣化した入力に対する新たなロールアウトを回避する。
分布の整合性については、最悪の場合の増大に対してトークンレベルの代理KLペナルティを適用し、正規化による政策崩壊を防止するため、クリーンイメージの優位性に固定された補助的な政策勾配損失は信頼できる報酬信号を保持する。
Qwen3-VL 4B/8Bを7つのマルチモーダル推論ベンチマークで比較すると、この手法は可視性では+2.4%、GRPO上では+2.3%のロバスト性を向上する。
関連論文リスト
- Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Perception-Consistency Multimodal Large Language Models Reasoning via Caption-Regularized Policy Optimization [72.30168853571216]
マルチモーダルな言語モデルは、視覚知覚と象徴的推論を統合するタスクに優れています。
CapPO は,(1) 原画像上の条件付き応答とキャプション上の条件付き応答のばらつきを最小限に抑えるキャプションベース整合性正規化,(2) KL 重み付き優位性推定スキームを適応的に拡張して知覚整合性トラジェクトリを強化するキャプションベース整合性正規化という2つの重要なメカニズムを統合した。
論文 参考訳(メタデータ) (2025-09-26T04:32:26Z) - LORE: Lagrangian-Optimized Robust Embeddings for Visual Encoders [11.01163097340578]
ラグランジアン・ド・ロバスト・エンベディング(LORE:Lagrangian-d Robust Embeddings)を提案する。
LOREは、クリーンデータ精度の低下を最小限に抑え、ゼロショット対逆ロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T21:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。