論文の概要: Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization
- arxiv url: http://arxiv.org/abs/2604.11510v1
- Date: Mon, 13 Apr 2026 14:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.592869
- Title: Policy Split: Incentivizing Dual-Mode Exploration in LLM Reinforcement with Dual-Mode Entropy Regularization
- Title(参考訳): 政策分割:デュアルモードエントロピー規則化によるLLM強化におけるデュアルモード探索のインセンティブ
- Authors: Jiashu Yao, Heyan Huang, Chuwei Luo, Daiqing Wu, Zeming Liu, Yuhang Guo, Yangyang Kang,
- Abstract要約: Policy Splitは、ポリシーを通常の高エントロピーモードと高エントロピープロンプトに分岐させる新しいパラダイムである。
モデルパラメータを共有しながら、2つのモードは異なる目的に合わせて協調的な二重モードエントロピー正規化を行う。
- 参考スコア(独自算出の注目度): 53.051213470905935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To encourage diverse exploration in reinforcement learning (RL) for large language models (LLMs) without compromising accuracy, we propose Policy Split, a novel paradigm that bifurcates the policy into normal and high-entropy modes with a high-entropy prompt. While sharing model parameters, the two modes undergo collaborative dual-mode entropy regularization tailored to distinct objectives. Specifically, the normal mode optimizes for task correctness, while the high-entropy mode incorporates a preference for exploration, and the two modes learn collaboratively. Extensive experiments demonstrate that our approach consistently outperforms established entropy-guided RL baselines across various model sizes in general and creative tasks. Further analysis reveals that Policy Split facilitates dual-mode exploration, where the high-entropy mode generates distinct behavioral patterns to the normal mode, providing unique learning signals.
- Abstract(参考訳): 大規模言語モデル(LLM)に対する強化学習(RL)の多種多様な探索を精度を損なうことなく促進するため,高エントロピープロンプトを用いてポリシーを正常かつ高エントロピーモードに分岐させる新しいパラダイムであるPhysal Splitを提案する。
モデルパラメータを共有しながら、2つのモードは異なる目的に合わせて協調的な二重モードエントロピー正規化を行う。
具体的には、通常のモードはタスクの正しさを最適化し、高エントロピーモードは探索の好みを取り入れ、2つのモードは協調的に学習する。
大規模な実験により,提案手法は様々なモデルサイズおよび創造的タスクにおいて,確立されたエントロピー誘導RLベースラインを一貫して上回ることを示した。
さらに分析したところ、Policy Splitは二重モード探索を促進し、そこでは高エントロピーモードが通常のモードと異なる行動パターンを生成し、ユニークな学習信号を提供する。
関連論文リスト
- OpenVLThinkerV2: A Generalist Multimodal Reasoning Model for Multi-domain Visual Tasks [81.07598709704628]
標準線形スケーリングを非線形分布マッチングに置き換える新しいRLトレーニング目標を提案する。
また、高度に堅牢で汎用的なマルチモーダルモデルであるOpenVLThinkerV2を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:39Z) - Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - Dual-level Modality Debiasing Learning for Unsupervised Visible-Infrared Person Re-Identification [59.59359638389348]
本稿では,モデルと最適化の両レベルでのデバイアス処理を実装したデュアルレベルのモダリティ・デバイアス学習フレームワークを提案する。
ベンチマークデータセットの実験では、DMDLはモダリティ不変の特徴学習とより一般化されたモデルを可能にすることを示した。
論文 参考訳(メタデータ) (2025-12-03T12:43:16Z) - Mixture-of-Visual-Thoughts: Exploring Context-Adaptive Reasoning Mode Selection for General Visual Reasoning [43.07723859242318]
我々は、新しい適応推論パラダイム、Mixture-of-Visual-Thoughts (MoVT)を提案する。
MoVTは単一のモデル内で異なる推論モードを統一し、コンテキストに基づいて適切なモードを選択するように誘導する。
AdaVaRは、モデルを効果的にガイドし、複数のモードを学び、区別し、コンテキスト適応モード選択を実行する。
論文 参考訳(メタデータ) (2025-09-26T04:33:53Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Learning on One Mode: Addressing Multi-modality in Offline Reinforcement Learning [9.38848713730931]
オフライン強化学習は、環境と対話することなく、静的データセットから最適なポリシーを学習しようとする。
既存の方法は、しばしば一助的行動ポリシーを仮定し、この仮定が破られたとき、最適以下のパフォーマンスをもたらす。
本稿では,行動方針の単一かつ有望なモードから学習することに焦点を当てた新しいアプローチである,1モードでの模倣学習(LOM)を提案する。
論文 参考訳(メタデータ) (2024-12-04T11:57:36Z) - Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。
DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。
さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文 参考訳(メタデータ) (2024-06-02T09:32:28Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - PARAFAC2 AO-ADMM: Constraints in all modes [6.901159341430921]
本稿では, PARAFAC2 を適合させる乗算器 (ADMM) ベースのアルゴリズムの交互方向法を提案し, 任意の近似関数に対して正則化のペナルティを拡大する。
数値実験により, PARAFAC2のADMMに基づく手法により, シミュレーションデータから基礎成分を精度良く回収できることが示されている。
論文 参考訳(メタデータ) (2021-02-03T14:42:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。