論文の概要: Boosting RL-Based Visual Reasoning with Selective Adversarial Entropy Intervention
- arxiv url: http://arxiv.org/abs/2512.10414v1
- Date: Thu, 11 Dec 2025 08:27:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.277455
- Title: Boosting RL-Based Visual Reasoning with Selective Adversarial Entropy Intervention
- Title(参考訳): 選択的対向エントロピー干渉を用いたRL型視覚推論の高速化
- Authors: Yang Yu, Zhuangzhuang Chen, Siqi Wang, Lanqing Li, Xiaomeng Li,
- Abstract要約: 本稿では,エントロピー誘導型対向サンプリング(EgAS)を提案する。
対応する対向勾配は、対向的なサンプルを生成するための視覚的な入力を攻撃するために使用することができ、ポリシーモデルがRLサンプリング中により大きな対進空間を探索することができる。
- 参考スコア(独自算出の注目度): 29.17663968152743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, reinforcement learning (RL) has become a common choice in enhancing the reasoning capabilities of vision-language models (VLMs). Considering existing RL- based finetuning methods, entropy intervention turns out to be an effective way to benefit exploratory ability, thereby improving policy performance. Notably, most existing stud- ies intervene in entropy by simply controlling the update of specific tokens during policy optimization of RL. They ig- nore the entropy intervention during the RL sampling that can boost the performance of GRPO by improving the di- versity of responses. In this paper, we propose Selective- adversarial Entropy Intervention, namely SaEI, which en- hances policy entropy by distorting the visual input with the token-selective adversarial objective coming from the en- tropy of sampled responses. Specifically, we first propose entropy-guided adversarial sampling (EgAS) that formu- lates the entropy of sampled responses as an adversarial ob- jective. Then, the corresponding adversarial gradient can be used to attack the visual input for producing adversarial samples, allowing the policy model to explore a larger an- swer space during RL sampling. Then, we propose token- selective entropy computation (TsEC) to maximize the ef- fectiveness of adversarial attack in EgAS without distorting factual knowledge within VLMs. Extensive experiments on both in-domain and out-of-domain datasets show that our proposed method can greatly improve policy exploration via entropy intervention, to boost reasoning capabilities. Code will be released once the paper is accepted.
- Abstract(参考訳): 近年,視覚言語モデル(VLM)の推論能力を高めるために,強化学習(RL)が一般的な選択肢となっている。
既存のRLに基づく微調整法を考えると、エントロピー介入は探索能力の向上に有効な方法であることが判明し、政策性能が向上した。
特に、既存のstd-iesは、RLのポリシー最適化中に特定のトークンの更新を単純に制御することでエントロピーに介入する。
RLサンプリングのエントロピー介入は、応答のディバーシティを改善することでGRPOの性能を高めることができる。
本稿では,Selective-Adversarial Entropy Intervention,すなわちSaEIを提案する。
具体的には,まず,エントロピー誘導型対向サンプリング(EgAS)を提案する。
次に、対応する対向勾配を用いて、対向サンプルを生成するための視覚入力を攻撃し、ポリシーモデルがRLサンプリング中により大きな対向空間を探索することができる。
次に, トークン選択エントロピー計算(TsEC)を提案し, VLM内の事実知識を歪ませることなく, EgASにおける敵攻撃のエフェクト効果を最大化する。
ドメイン内およびドメイン外両方のデータセットに対する大規模な実験により、提案手法は、エントロピー介入によるポリシー探索を大幅に改善し、推論能力を高めることができることが示された。
論文が受け入れられたら、コードはリリースされます。
関連論文リスト
- Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps [13.28742762414913]
NCDPOは拡散政策を雑音条件決定政策として再構成する新しい枠組みである。
実験の結果,NCDPOはスクラッチからトレーニングを行う際に,PPOに匹敵するサンプル効率が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-15T16:33:44Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization [16.335645061396455]
強化学習(RL)では、エージェントは予測可能な行動を示すインセンティブを持たない。
予測可能性を考慮したRL(predictability-Aware RL)と呼ばれるRLエージェントの予測可能な振る舞いを誘導する新しい手法を提案する。
提案手法は,標準割引報酬と負のエントロピー率の線形結合を最大化することにより,最適性を予測可能性と引き換えに行う。
論文 参考訳(メタデータ) (2023-11-30T16:53:32Z) - Diversity Actor-Critic: Sample-Aware Entropy Regularization for
Sample-Efficient Exploration [22.539300644593936]
提案したサンプル認識エントロピー正規化は、リプレイバッファから取得可能なサンプル分布をエクスプロイトすることにより、ポリシーアクション分布の重み付け和のエントロピーを最大化し、リプレイバッファからのサンプルアクション分布を最大化し、サンプリング効率の高い探索を行う。
提案したサンプル認識エントロピー正則化を用いて,目的関数にポリシー反復を適用することで,多様性アクタクリティカル (DAC) という実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-06-02T06:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。