論文の概要: Boosting Reasoning in Large Multimodal Models via Activation Replay
- arxiv url: http://arxiv.org/abs/2511.19972v2
- Date: Thu, 27 Nov 2025 10:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.791724
- Title: Boosting Reasoning in Large Multimodal Models via Activation Replay
- Title(参考訳): アクティベーション・リプレイによる大規模マルチモーダルモデルにおけるブースティング・推論
- Authors: Yun Xing, Xiaobin Hu, Qingdong He, Jiangning Zhang, Shuicheng Yan, Shijian Lu, Yu-Gang Jiang,
- Abstract要約: RLVRは低エントロピーの活性化を予期せずシフトさせるが、高エントロピーの活性化は影響を受けないことを示す。
本稿では,学習後LMMのマルチモーダル推論を促進するトレーニングフリーアプローチであるActivation Replayを提案する。
- 参考スコア(独自算出の注目度): 136.6522463570943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as an effective approach to incentivizing reasoning capability in Large Multimodal Models (LMMs), while the underlying mechanisms behind this post-training paradigm are poorly understood. We begin by exploring how input activations are affected by RLVR through the perspective of logit lens. Our systematic investigations across multiple post-trained LMMs suggest that RLVR shifts low-entropy activations unexpectedly, while high-entropy ones are less affected. We further demonstrate that such phenomena are associated with LMM reasoning by controlled experiments, suggesting a potentially beneficial role of modulating low-entropy activations. To this end, we propose Activation Replay, a novel simple yet effective training-free approach that boosts multimodal reasoning of post-trained LMMs without requiring expensive policy optimization. Our design involves manipulation of visual tokens at test time, replaying low-entropy activations from the input context of base LMMs to regulating the RLVR counterparts. Activation Replay triggers better reasoning across diverse scenarios, including mathematics, o3-like visual agents, and video reasoning. We further show that Activation Replay boosts Pass@K and mitigates narrower reasoning coverage of RLVR. Our design is compared against alternative choices, such as replaying high-entropy activations instead of low-entropy ones, or direct cross-model intervention instead of manipulating input tokens, demonstrating the superiority of our implementation. Codes will be made publicly available.
- Abstract(参考訳): 近年,RLVR(Reinforcement Learning with Verifiable Rewards)は,LMM(Large Multimodal Models)における推論能力のインセンティブ化に有効な手法として現れ,このポストトレーニングパラダイムの基盤となるメカニズムはよく理解されていない。
まず、ロジットレンズの観点から、RLVRによる入力アクティベーションの影響について検討する。
RLVRは低エントロピーの活性化を予期せずシフトさせるが,高エントロピーの活性化は影響を受けないと考えられる。
さらに、このような現象が制御実験によるLMM推論と関連していることが示され、低エントロピー活性化を調節する潜在的に有益である可能性が示唆された。
この目的のために、我々は、高コストなポリシー最適化を必要とせず、訓練後LMMのマルチモーダル推論を促進する、新しいシンプルで効果的なトレーニングフリーアプローチであるActivation Replayを提案する。
我々の設計では、テスト時に視覚トークンを操作し、ベースLMMの入力コンテキストから低エントロピーのアクティベーションを再生し、RLVRのアクティベートを制御する。
アクティベーション・リプレイ(Activation Replay)は、数学、o3のような視覚エージェント、ビデオ推論など、さまざまなシナリオにおける推論を改善する。
さらに、Activation ReplayはPass@Kを向上し、RLVRのより狭い推論範囲を緩和することを示す。
我々の設計は、低エントロピーではなく高エントロピーアクティベーションを再生することや、入力トークンを操作する代わりに直接モデル間介入を行うことなど、代替の選択肢と比較し、実装の優位性を実証する。
コードは公開されます。
関連論文リスト
- Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning [53.35553353785948]
問合せプロンプトの前に無意味なトークンの長いシーケンスを挿入することで、LCM性能の推論を継続的に強化できるというファズリング観測により、本研究は、この現象を駆動する基盤となるメカニズムを解析する。
その結果,LLM層における活性化の再分配により,大きな活性化が増大するにつれて,ほぼゼロに近い活性化頻度が低下することが判明した。
本稿では,入力シーケンスを変更することなく,アクティベーションを直接修正する軽量な推論時間手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T15:39:38Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z) - Activation Control for Efficiently Eliciting Long Chain-of-thought Ability of Language Models [45.938663388013445]
本報告では,最後の数層における高影響活性化の小さなセットが,長大な推論特性を支配していることを示す。
これらのアクティベーションを増幅し、"待機"トークンを挿入することで、トレーニングなしで長いCoT機能を呼び出すことができます。
論文 参考訳(メタデータ) (2025-05-23T10:07:18Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。