論文の概要: Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding
- arxiv url: http://arxiv.org/abs/2512.17532v1
- Date: Fri, 19 Dec 2025 12:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.386898
- Title: Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding
- Title(参考訳): Robust-R1:ロバスト視覚理解のための劣化認識推論
- Authors: Jiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen,
- Abstract要約: 既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
- 参考スコア(独自算出の注目度): 54.05243949024302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models struggle to maintain reliable performance under extreme real-world visual degradations, which impede their practical robustness. Existing robust MLLMs predominantly rely on implicit training/adaptation that focuses solely on visual encoder generalization, suffering from limited interpretability and isolated optimization. To overcome these limitations, we propose Robust-R1, a novel framework that explicitly models visual degradations through structured reasoning chains. Our approach integrates: (i) supervised fine-tuning for degradation-aware reasoning foundations, (ii) reward-driven alignment for accurately perceiving degradation parameters, and (iii) dynamic reasoning depth scaling adapted to degradation intensity. To facilitate this approach, we introduce a specialized 11K dataset featuring realistic degradations synthesized across four critical real-world visual processing stages, each annotated with structured chains connecting degradation parameters, perceptual influence, pristine semantic reasoning chain, and conclusion. Comprehensive evaluations demonstrate state-of-the-art robustness: Robust-R1 outperforms all general and robust baselines on the real-world degradation benchmark R-Bench, while maintaining superior anti-degradation performance under multi-intensity adversarial degradations on MMMB, MMStar, and RealWorldQA.
- Abstract(参考訳): マルチモーダル大規模言語モデルは、極めて現実的な視覚的劣化の下で信頼性の高いパフォーマンスを維持するのに苦労し、その実用的堅牢性を妨げる。
既存のロバストMLLMは主に視覚エンコーダの一般化にのみ焦点をあてる暗黙のトレーニング/適応に依存しており、解釈可能性の制限と孤立した最適化に悩まされている。
このような制約を克服するために,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークRobust-R1を提案する。
私たちのアプローチは以下のとおりです。
一 劣化認識推論の基礎のための微調整を監督すること。
二 劣化パラメータを正確に知覚するための報酬駆動アライメント、及び
3) 劣化強度に適応した動的推論深度スケーリング。
このアプローチを容易にするために,4つの重要な実世界の視覚処理段階で合成された現実的な劣化を特徴とする,特殊な11Kデータセットを導入し,分解パラメータ,知覚的影響,プリスタン意味推論チェーン,結論を接続する構造的連鎖をアノテートした。
Robust-R1 は実世界の劣化ベンチマーク R-Bench の一般的なベースラインと堅牢なベースラインをすべて上回り、MMMB、MMStar、RealWorldQA 上でのマルチインテンシティの逆劣化の下で優れた劣化防止性能を維持している。
関連論文リスト
- Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization [63.169050703903515]
強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
論文 参考訳(メタデータ) (2025-09-26T04:55:00Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Edge-Aware Normalized Attention for Efficient and Detail-Preserving Single Image Super-Resolution [27.3322913419539]
単一高分解能超解像(SISR)は、単一の低分解能観測から構造的に忠実な高周波成分を回収することが曖昧であるため、非常に不明瞭である。
既存のエッジ対応の手法では、エッジ先行または注意枝をますます複雑なバックボーンにアタッチすることが多いが、アドホック融合は冗長性、不安定な最適化、あるいは限られた構造的利得をもたらすことが多い。
このギャップには, エッジ特徴量と中間特徴量から適応変調マップを導出するエッジ誘導型アテンション機構を用いて対処し, それらを正規化および再重み付けに応用し, 微妙なテクスチャを抑えつつ, 構造的に健全な領域を選択的に増幅する。
論文 参考訳(メタデータ) (2025-09-18T02:31:24Z) - LORE: Lagrangian-Optimized Robust Embeddings for Visual Encoders [11.01163097340578]
ラグランジアン・ド・ロバスト・エンベディング(LORE:Lagrangian-d Robust Embeddings)を提案する。
LOREは、クリーンデータ精度の低下を最小限に抑え、ゼロショット対逆ロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T21:54:52Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Unified Enhancement of the Generalization and Robustness of Language Models via Bi-Stage Optimization [2.502393972789905]
本稿では,LMの一般化とロバスト性の両方を均一に向上する二段階最適化フレームワークを提案する。
提案手法は,従来の手法と比較して,LMの一般化とロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-03-19T13:50:36Z) - Source-Free Domain Adaptive Object Detection with Semantics Compensation [54.00183496587841]
Weak-to-strong Semantics Compensation (WSCo)を導入する。
WSCoは、クラス関連セマンティクスを補う。
WSCoは一般的なプラグインとして実装することができ、既存のSFODパイプラインと容易に統合できます。
論文 参考訳(メタデータ) (2024-10-07T23:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。