論文の概要: On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs
- arxiv url: http://arxiv.org/abs/2602.12506v1
- Date: Fri, 13 Feb 2026 01:12:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.801232
- Title: On Robustness and Chain-of-Thought Consistency of RL-Finetuned VLMs
- Title(参考訳): RL-Finetuned VLMのロバスト性と整合性について
- Authors: Rosie Zhao, Anshul Shah, Xiaoyu Zhu, Xinke Deng, Zhongyu Jiang, Yang Yang, Joerg Liebelt, Arnab Mondal,
- Abstract要約: 単純な、制御されたテキストの摂動(キャプションや不正確なチェーン・オブ・シント(CoT)のトレース)は、堅牢性と信頼性が著しく低下していることを示している。
これらの脆弱性をよりよく理解するために、我々はRL微調整力学を分析し、精度と信頼のトレードオフを明らかにする。
- 参考スコア(独自算出の注目度): 15.301640007799735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) fine-tuning has become a key technique for enhancing large language models (LLMs) on reasoning-intensive tasks, motivating its extension to vision language models (VLMs). While RL-tuned VLMs improve on visual reasoning benchmarks, they remain vulnerable to weak visual grounding, hallucinations, and over-reliance on textual cues. We show that simple, controlled textual perturbations--misleading captions or incorrect chain-of-thought (CoT) traces--cause substantial drops in robustness and confidence, and that these effects are more pronounced when CoT consistency is taken into account across open-source multimodal reasoning models. Entropy-based metrics further show that these perturbations reshape model uncertainty and probability mass on the correct option, exposing model-specific trends in miscalibration. To better understand these vulnerabilities, we further analyze RL fine-tuning dynamics and uncover an accuracy-faithfulness trade-off: fine-tuning raises benchmark accuracy, but can simultaneously erode the reliability of the accompanying CoT and its robustness to contextual shifts. Although adversarial augmentation improves robustness, it does not by itself prevent faithfulness drift. Incorporating a faithfulness-aware reward can restore alignment between answers and reasoning, but when paired with augmentation, training risks collapsing onto shortcut strategies and robustness remains elusive. Together, these findings highlight the limitations of accuracy-only evaluations and motivate training and assessment protocols that jointly emphasize correctness, robustness, and the faithfulness of visually grounded reasoning.
- Abstract(参考訳): 強化学習(RL)の微調整は、推論集約的なタスクにおいて大規模言語モデル(LLM)を強化する重要な手法となり、視覚言語モデル(VLM)への拡張を動機付けている。
RLで調整されたVLMは、視覚的推論のベンチマークを改善するが、弱い視覚的接地、幻覚、テキスト的手がかりへの過度な信頼に弱いままである。
本研究は,CoTの一貫性がオープンソースマルチモーダル推論モデルにまたがって考慮された場合,CoTの信頼性と信頼性が著しく低下する原因として,単純なテキスト摂動(キャプションや不正確なチェーン・オブ・プリート(CoT)トレース)が重要であることを示す。
エントロピーに基づく測度は、これらの摂動がモデルの不確実性と正しいオプション上の確率質量を再構成し、モデル固有の誤校正の傾向を明らかにすることを示している。
これらの脆弱性をよりよく理解するために、RLファインチューニングのダイナミクスを分析し、精度と信頼のトレードオフを明らかにする: ファインチューニングはベンチマークの精度を高めるが、付随するCoTの信頼性とコンテキストシフトに対する頑健さを同時に損なうことができる。
敵の増大は堅牢性を改善するが、それ自体が忠実さの漂流を防ぐものではない。
忠実さを意識した報酬を取り入れることで、回答と推論の整合性を取り戻すことができるが、増強と組み合わせると、トレーニングリスクはショートカット戦略に崩壊し、ロバスト性は排除され続ける。
これらの知見は、正確性のみの評価の限界と、正当性、頑健性、および視覚的根拠に基づく推論の忠実さを共同で強調するモチベーション・トレーニング・アセスメント・プロトコルの限界を強調した。
関連論文リスト
- Are Reasoning LLMs Robust to Interventions on Their Chain-of-Thought? [79.86483056611105]
推論 LLM は、答えを出す前にステップバイステップの思考連鎖を生成する。
これらの推論は、その内部で発生する破壊の痕跡をどれほど堅牢にしていますか?
一定のタイミングでモデル自身のCoTを摂動させる制御された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2026-02-07T10:02:58Z) - From Passive Metric to Active Signal: The Evolving Role of Uncertainty Quantification in Large Language Models [77.04403907729738]
このサーベイは、受動的診断基準からリアルタイムモデル動作を導くアクティブ制御信号への不確実性の進化をグラフ化する。
3つのフロンティアにまたがるアクティブ制御信号として不確実性がいかに活用されているかを示す。
この調査は、次世代のスケーラブルで信頼性があり、信頼できるAIを構築するためには、新しい不確実性のトレンドを習得することが不可欠である、と論じている。
論文 参考訳(メタデータ) (2026-01-22T06:21:31Z) - Learning to be Reproducible: Custom Loss Design for Robust Neural Networks [4.3094059981414405]
予測精度とトレーニング安定性のバランスをとるカスタムロス関数(CLF)を提案する。
CLFは予測性能を犠牲にすることなくトレーニングを大幅に改善する。
これらの結果は、より安定的で信頼性があり、信頼できるニューラルネットワークを開発するための効率的かつ効率的な戦略として、CLFを確立している。
論文 参考訳(メタデータ) (2026-01-02T05:31:08Z) - Reflective Confidence: Correcting Reasoning Flaws via Online Self-Correction [14.164508061248775]
大規模言語モデル(LLM)は、チェーン・オブ・ソートや自己整合性といった技術を用いて、複雑な推論タスクにおいて強力なパフォーマンスを実現している。
本稿では,低信頼信号を終端指標からリフレクショントリガに変換する新しい推論フレームワークであるリフレクティブ信頼を提案する。
AIME 2025を含む数学的推論ベンチマークの実験では、高度な早期停止ベースラインに対して、同等の計算コストで大幅に精度が向上した。
論文 参考訳(メタデータ) (2025-12-21T05:35:07Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - ConCISE: Confidence-guided Compression in Step-by-step Efficient Reasoning [64.93140713419561]
大型推論モデル (LRM) は、Chain-of-Thought (CoT) による複雑な推論タスクで強く機能するが、しばしば冗長な出力に悩まされる。
既存の微調整ベースの圧縮手法は、ポストホックプルーニングを動作させるか、コヒーレンスを推論する破壊を危険にさらすか、サンプリングベースの選択に依存するかのいずれかである。
ConCISEは、簡潔な推論連鎖を生成するために設計されたフレームワークであり、信頼注入を統合して推論の信頼性を高める。
論文 参考訳(メタデータ) (2025-05-08T01:40:40Z) - Bridging Interpretability and Robustness Using LIME-Guided Model Refinement [0.0]
LIME(Local Interpretable Model-Agnostic Explanations)は、モデルロバスト性を体系的に強化する。
複数のベンチマークデータセットに対する実証的な評価は、LIME誘導の洗練は解釈可能性を改善するだけでなく、敵の摂動に対する耐性を著しく向上し、アウト・オブ・ディストリビューションデータへの一般化を促進することを示している。
論文 参考訳(メタデータ) (2024-12-25T17:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。