論文の概要: Boosting RL-Based Visual Reasoning with Selective Adversarial Entropy Intervention
- arxiv url: http://arxiv.org/abs/2512.10414v1
- Date: Thu, 11 Dec 2025 08:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.277455
- Title: Boosting RL-Based Visual Reasoning with Selective Adversarial Entropy Intervention
- Title(参考訳): 選択的対向エントロピー干渉を用いたRL型視覚推論の高速化
- Authors: Yang Yu, Zhuangzhuang Chen, Siqi Wang, Lanqing Li, Xiaomeng Li,
- Abstract要約: 本稿では,エントロピー誘導型対向サンプリング(EgAS)を提案する。
対応する対向勾配は、対向的なサンプルを生成するための視覚的な入力を攻撃するために使用することができ、ポリシーモデルがRLサンプリング中により大きな対進空間を探索することができる。
- 参考スコア(独自算出の注目度): 29.17663968152743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reinforcement learning (RL) has become a common choice in enhancing the reasoning capabilities of vision-language models (VLMs). Considering existing RL- based finetuning methods, entropy intervention turns out to be an effective way to benefit exploratory ability, thereby improving policy performance. Notably, most existing stud- ies intervene in entropy by simply controlling the update of specific tokens during policy optimization of RL. They ig- nore the entropy intervention during the RL sampling that can boost the performance of GRPO by improving the di- versity of responses. In this paper, we propose Selective- adversarial Entropy Intervention, namely SaEI, which en- hances policy entropy by distorting the visual input with the token-selective adversarial objective coming from the en- tropy of sampled responses. Specifically, we first propose entropy-guided adversarial sampling (EgAS) that formu- lates the entropy of sampled responses as an adversarial ob- jective. Then, the corresponding adversarial gradient can be used to attack the visual input for producing adversarial samples, allowing the policy model to explore a larger an- swer space during RL sampling. Then, we propose token- selective entropy computation (TsEC) to maximize the ef- fectiveness of adversarial attack in EgAS without distorting factual knowledge within VLMs. Extensive experiments on both in-domain and out-of-domain datasets show that our proposed method can greatly improve policy exploration via entropy intervention, to boost reasoning capabilities. Code will be released once the paper is accepted.
- Abstract(参考訳): 近年,視覚言語モデル(VLM)の推論能力を高めるために,強化学習(RL)が一般的な選択肢となっている。
既存のRLに基づく微調整法を考えると、エントロピー介入は探索能力の向上に有効な方法であることが判明し、政策性能が向上した。
特に、既存のstd-iesは、RLのポリシー最適化中に特定のトークンの更新を単純に制御することでエントロピーに介入する。
RLサンプリングのエントロピー介入は、応答のディバーシティを改善することでGRPOの性能を高めることができる。
本稿では,Selective-Adversarial Entropy Intervention,すなわちSaEIを提案する。
具体的には,まず,エントロピー誘導型対向サンプリング(EgAS)を提案する。
次に、対応する対向勾配を用いて、対向サンプルを生成するための視覚入力を攻撃し、ポリシーモデルがRLサンプリング中により大きな対向空間を探索することができる。
次に, トークン選択エントロピー計算(TsEC)を提案し, VLM内の事実知識を歪ませることなく, EgASにおける敵攻撃のエフェクト効果を最大化する。
ドメイン内およびドメイン外両方のデータセットに対する大規模な実験により、提案手法は、エントロピー介入によるポリシー探索を大幅に改善し、推論能力を高めることができることが示された。
論文が受け入れられたら、コードはリリースされます。
関連論文リスト
- How Sampling Shapes LLM Alignment: From One-Shot Optima to Iterative Dynamics [65.67654005892469]
適切なインスタンス依存サンプリングは、より強力なランキング保証を得られる一方で、スキュードオン政治サンプリングは、構造化された嗜好の下で過剰な濃度を誘導できることを示す。
次に、学習したポリシーが将来のサンプリングおよび参照ポリシーにフィードバックする反復的なアライメントダイナミクスを分析する。
我々の理論的な洞察は直接選好最適化にまで拡張され、我々が捉えた現象はより広範な選好アライメント手法に共通していることを示している。
論文 参考訳(メタデータ) (2026-02-12T17:11:08Z) - AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models [54.56296715999545]
人間のフィードバックからの強化学習は、拡散とフローモデルの整合性を示す。
GRPOのような政策最適化手法は、非効率で静的なサンプリング戦略に悩まされている。
適応エントロピー誘導政策最適化(Adaptive Entropy-Guided Policy Optimization, AEGPO)を提案する。
論文 参考訳(メタデータ) (2026-02-06T16:09:50Z) - Back to Basics: Revisiting Exploration in Reinforcement Learning for LLM Reasoning via Generative Probabilities [10.235183326885794]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLMs)における推論の強化に欠かせないパラダイムとして登場した。
我々は、この問題をサンプリング確率力学の観点から分析し、標準目的が高次様相の経路を不均等に強化することを特定する。
提案手法は,すべての応答に対する信頼度を平衡化するための新しいアドバンテージ再重み付け機構 (ARM) を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:06:55Z) - Revisiting Entropy in Reinforcement Learning for Large Reasoning Models [54.96908589622163]
検証可能な報酬(RLVR)を用いた強化学習で訓練した大規模言語モデルのエントロピーダイナミクスについて検討する。
以上の結果から,RLVRでトレーニングしたLDMのエントロピーに影響を及ぼす重要な要因として,非政治的更新数,トレーニングデータの多様性,最適化目標におけるクリッピング閾値が示唆された。
論文 参考訳(メタデータ) (2025-11-08T12:50:41Z) - Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps [13.28742762414913]
NCDPOは拡散政策を雑音条件決定政策として再構成する新しい枠組みである。
実験の結果,NCDPOはスクラッチからトレーニングを行う際に,PPOに匹敵するサンプル効率が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-15T16:33:44Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization [16.335645061396455]
強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
提案手法は,標準割引報酬と負のエントロピー率の線形結合を最大化することにより,最適性を予測可能性と引き換えに行う。
論文 参考訳(メタデータ) (2023-11-30T16:53:32Z) - Diversity Actor-Critic: Sample-Aware Entropy Regularization for
Sample-Efficient Exploration [22.539300644593936]
提案したサンプル認識エントロピー正規化は、リプレイバッファから取得可能なサンプル分布をエクスプロイトすることにより、ポリシーアクション分布の重み付け和のエントロピーを最大化し、リプレイバッファからのサンプルアクション分布を最大化し、サンプリング効率の高い探索を行う。
提案したサンプル認識エントロピー正則化を用いて,目的関数にポリシー反復を適用することで,多様性アクタクリティカル (DAC) という実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-02T06:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。