論文の概要: Reasoning Portability: Guiding Continual Learning for MLLMs in the RLVR Era
- arxiv url: http://arxiv.org/abs/2605.18903v1
- Date: Sun, 17 May 2026 13:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.864303
- Title: Reasoning Portability: Guiding Continual Learning for MLLMs in the RLVR Era
- Title(参考訳): RLVR時代におけるMLLMの継続的な学習指導
- Authors: Qiuhe Hong, Yuyang Liu, Shuo Yang, Tiantian Peng, Fei Zhu, Yonghong Tian,
- Abstract要約: VLM-CL(Vision-Language Models in Continual Learning)は,従来の知識を維持しつつ,新たなマルチモーダルタスクに継続的に適応することを目的としている。
Reasoning Portability(RP)に基づき,RLVRにおけるサンプルごとのKullback-Leibler正規化を形式化するReasoning-based Dynamic Balance Continual Learning(RDB-CL)を提案する。
実験の結果、RDB-CLはベースラインを一貫して上回り、ラスト精度はバニラRLVRベースラインよりも+12.0%向上した。
- 参考スコア(独自算出の注目度): 44.08086834976093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models in Continual Learning (VLM-CL) aim to continuously adapt to new multimodal tasks while retaining prior knowledge. The emerging paradigm that couples Multimodal Large Language Models (MLLMs) with Reinforcement Learning with Verifiable Rewards (RLVR) calls for a new pattern to guide continual adaptation. Advances in reasoning capability now make it feasible to impose constraints at the reasoning level. We formalize portability, a sample-level measure of how reusable the previous policy's behavior is on a new task, and empirically show that reasoning-level signals remain reliable on out-of-distribution samples while answer-level signals do not. We instantiate this as Reasoning Portability (RP) and propose Reasoning-based Dynamic Balance Continual Learning (RDB-CL), which modulates the per-sample Kullback-Leibler regularization in RLVR according to RP: a tight anchor preserves reusable reasoning on high-RP samples, while a relaxed anchor on low-RP samples permits exploration of new reasoning pathways. Experiments show that RDB-CL consistently outperforms baselines, improving Last accuracy by +12.0% over the vanilla RLVR baseline.
- Abstract(参考訳): VLM-CL(Vision-Language Models in Continual Learning)は,従来の知識を維持しつつ,新たなマルチモーダルタスクに継続的に適応することを目的としている。
MLLM(Multimodal Large Language Models)とReinforcement Learning with Verifiable Rewards(RLVR)を結合する新たなパラダイムは、継続的適応を導く新しいパターンを求めている。
推論能力の進歩により、推論レベルで制約を課すことが可能になった。
ポータビリティ(ポータビリティ)は,従来のポリシの動作が新しいタスクでいかに再利用されているかを示すサンプルレベル尺度であり,解答レベル信号が存在しない間に,解答レベル信号が分布外のサンプルに対して信頼性を保っていることを実証的に示す。
我々は、Reasoning Portability (RP) としてこれをインスタンス化し、Reasoning-based Dynamic Balance Continual Learning (RDB-CL) を提案する。RPによると、RLVRにおけるサンプルごとのKullback-Leibler正規化を変調する。
実験の結果、RDB-CLはベースラインを一貫して上回り、ラスト精度はバニラRLVRベースラインよりも+12.0%向上した。
関連論文リスト
- SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs [55.46289074417954]
検証可能な報酬(RLVR)による強化学習は、推論タスクのpass@1を確実に改善するが、pass@kでは同等の利得を得られないことが多い。
中心的な構造的制約は、トレーニングを安定させるが、本質的には基準分布にポリシーを固定する逆-KL正規化から生じる。
我々は,逆KLアンカー分布自体を再構成することで,制御可能な経験的サポート拡張を可能にする,原則化されたフレームワークであるSAGEを提案する。
論文 参考訳(メタデータ) (2026-05-15T07:42:21Z) - Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - Resource-Efficient Reinforcement for Reasoning Large Language Models via Dynamic One-Shot Policy Refinement [21.073482007189504]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な性能を示した。
検証可能な報酬(RLVR)の下での強化学習は、モデル行動と推論連鎖を整合させるための原則的な枠組みとして現れつつある。
その約束にもかかわらず、RLVRは厳しい資源集約であり、広範な報奨信号を必要とし、訓練中にかなりのロールアウトコストを発生させる。
論文 参考訳(メタデータ) (2026-01-31T16:51:50Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme [36.34443944082215]
本研究は、視覚モデル(VLM)における強化学習(RL)のための透明でゼロスクラッチなフレームワークを導入する。
複数のモデルとデータセットにまたがって検証される、最小限の機能を備えた4ステップパイプラインを提供する。
さらに、トレーニング力学と反射行動を評価するために、標準化された評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T13:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。