Fugu-MT 論文翻訳(概要): Reinforcing Multimodal Reasoning Against Visual Degradation

論文の概要: Reinforcing Multimodal Reasoning Against Visual Degradation

arxiv url: http://arxiv.org/abs/2605.09262v1
Date: Sun, 10 May 2026 02:17:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.150038
Title: Reinforcing Multimodal Reasoning Against Visual Degradation
Title（参考訳）: 視覚劣化に対するマルチモーダル推論の強化
Authors: Rui Liu, Dian Yu, Haolin Liu, Yucheng Shi, Tong Zheng, Runpeng Dai, Haitao Mi, Pratap Tokekar, Leoweiliang,
Abstract要約: 視覚的劣化に対する推論を強化するために最適化力学を改良したRLフレームワークを提案する。本手法は, GRPO上の不明瞭な汚損に対して+2.4%, +2.3%の堅牢性を向上し, 清潔な精度を実現した。
参考スコア（独自算出の注目度）: 40.90242778291155
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Reinforcement Learning has significantly advanced the reasoning capabilities of Multimodal Large Language Models (MLLMs), yet the resulting policies remain brittle against real-world visual degradations such as blur, compression artifacts, and low-resolution scans. Prior robustness techniques from vision and deep RL rely on static data augmentation or value-based regularization, neither of which transfers cleanly to critic-free RL fine-tuning of autoregressive MLLMs. Reinforcing reasoning against such corruptions is non-trivial: naively injecting degraded views during rollout induces reward poisoning, where perceptual occlusions trigger hallucinated trajectories and destabilize optimization. We propose ROMA, an RL fine-tuning framework that modifies the optimization dynamics to reinforce reasoning against visual degradation while preserving clean-input performance. A dual-forward-pass strategy uses teacher forcing to evaluate corrupted views against clean-image trajectories, avoiding new rollouts on degraded inputs. For distributional consistency, we apply a token-level surrogate KL penalty against the worst-case augmentation; to prevent policy collapse under regularization, an auxiliary policy gradient loss anchored to clean-image advantages preserves a reliable reward signal; and to avoid systematically incorrect invariance, correctness-conditioned regularization restricts enforcement to successful trajectories. On Qwen3-VL 4B/8B across seven multimodal reasoning benchmarks, our method improves robustness by +2.4% on seen and +2.3% on unseen corruptions over GRPO while matching clean accuracy.
Abstract（参考訳）: 強化学習はMLLM(Multimodal Large Language Models)の推論能力を大幅に向上させたが、結果として得られるポリシーは、ぼやけや圧縮品、低解像度スキャンといった現実の視覚的劣化に対して脆弱なままである。視覚と深部RLの従来のロバスト性技術は静的データ拡張や値ベース正規化に依存しており、どちらも自動回帰MLLMの批判のないRL微調整にきれいに変換するものではない。このような汚職に対する推論の強化は、簡単ではない:ロールアウト中に劣化した見解を鼻で注入すると、報酬中毒が引き起こされ、知覚的閉塞が幻覚的軌跡を誘発し、最適化を不安定にする。クリーンなインプット性能を維持しつつ、視覚的劣化に対する推論を強化するために最適化ダイナミクスを改良したRLファインチューニングフレームワークROMAを提案する。デュアルフォワードパス戦略では、教師の強制力を使って、クリーンイメージの軌跡に対する破損したビューを評価し、劣化した入力に対する新たなロールアウトを回避する。分布の整合性については、最悪の場合の増大に対してトークンレベルの代理KLペナルティを適用し、正規化による政策崩壊を防止するため、クリーンイメージの優位性に固定された補助的な政策勾配損失は信頼できる報酬信号を保持する。 Qwen3-VL 4B/8Bを7つのマルチモーダル推論ベンチマークで比較すると、この手法は可視性では+2.4%、GRPO上では+2.3%のロバスト性を向上する。

論文の概要: Reinforcing Multimodal Reasoning Against Visual Degradation

関連論文リスト