論文の概要: PerMix-RLVR: Preserving Persona Expressivity under Verifiable-Reward Alignment
- arxiv url: http://arxiv.org/abs/2604.08986v1
- Date: Fri, 10 Apr 2026 05:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.70509
- Title: PerMix-RLVR: Preserving Persona Expressivity under Verifiable-Reward Alignment
- Title(参考訳): PerMix-RLVR:検証後アライメント下での人格表現性を保つ
- Authors: Jihwan Oh, Soowon Oh, Murad Aghazada, Minchan Jeong, Sungnyun Kim, Se-Young Yun,
- Abstract要約: 我々は,多様なペルソナに適応するモデルを訓練することを目的として,トレーニング中にペルソナの感受性に取り組む。
本稿では,ペルソナのロバスト性-忠実性トレードオフを緩和するペルソナ混合RLVR戦略であるPerMix-RLVRを提案する。
PerMix-RLVRはパーソナ安定性スコア(PSS)をMATH500で+21.2%改善し、PersonaGymで+11.4%向上した。
- 参考スコア(独自算出の注目度): 36.978072310675984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persona prompting has been widely adopted to steer large language models (LLMs) behavior and improve their instruction performance by assigning specific characters. However, identifying an optimal persona is time-consuming, and its impact on output quality remains poorly understood. Prior work has mainly addressed this issue at the prompt level via inference-time strategies, incurring additional computation. In this work, we avoid inference-time prompt search by tackling persona sensitivity during training, aiming to train models that adapt their behavior to diverse personas while preserving task performance. In particular, we find that reinforcement learning with verifiable rewards (RLVR) systematically reduces sensitivity to persona prompts, but also reveals an inherent trade-off of outcome-based optimization: while RLVR improves robustness on tasks with verifiable goals, it can also degrade persona expressivity when needed, e.g., in-character role-playing. To address this limitation, we propose PerMix-RLVR, a persona-mixed RLVR strategy that mitigates the persona robustness-fidelity trade-off, preserving strong robustness to harmful persona variation while enabling faithful persona adoption when required. Concretely, PerMix-RLVR improves persona stability score (PSS) over RLVR by +21.2% on MATH500, while also enhancing persona fidelity by +11.4% on PersonaGym.
- Abstract(参考訳): ペルソナプロンプトは、大きな言語モデル(LLM)の振る舞いを制御し、特定の文字を割り当てることで命令性能を向上させるために広く採用されている。
しかし、最適なペルソナを特定するのに時間がかかり、その出力品質への影響はよく分かっていない。
これまでの作業では、推論時の戦略によってこの問題に対処し、さらなる計算をおこなった。
本研究では,タスク性能を保ちながら,多様なペルソナに適応するモデルを訓練することを目的として,トレーニング中のペルソナ感度に対処することで,推論時プロンプト探索を回避する。
特に、検証可能な報酬(RLVR)を用いた強化学習は、ペルソナのプロンプトに対する感受性を体系的に低下させるが、結果に基づく最適化の本質的にのトレードオフを明らかにする。
この制限に対処するために、ペルミックス-RLVRは、ペルミックス-RLVR戦略であり、ペルミックス-RLVR戦略は、ペルミックス-RLVR戦略であり、ペルミックス-RLVR戦略は、ペルミックス-RLVR戦略を緩和し、ペルミックス-RLVR戦略は、ペルミックス-RLVR戦略を緩和するものである。
具体的には、PerMix-RLVRはRLVR上のペルソナ安定性スコア(PSS)をMATH500で+21.2%改善し、ペルソナ忠実度は+11.4%向上した。
関連論文リスト
- Self-Distilled RLVR [57.37526213765131]
特権教師からのみ派生した学習信号が,情報漏洩と不安定な長期学習をもたらすことを示す。
textbfSelf-textbfDistillationを用いたtextbfRLSD(textbfRLVR)を提案する。
これにより、RSSDはRLVRとOPSDの両方の強度を同時に利用でき、高い収束天井と優れたトレーニング安定性を実現することができる。
論文 参考訳(メタデータ) (2026-04-03T15:50:07Z) - D-SPEAR: Dual-Stream Prioritized Experience Adaptive Replay for Stable Reinforcement Learning in Robotic Manipulation [4.39988340059705]
D-SPEARは、共有リプレイバッファを維持しながらアクターと批評家のサンプリングを分離するリプレイフレームワークである。
我々は,ブロックリフティングやドアオープンを含むロボスーツベンチマークから,ロボット操作の課題に対するD-SPEARの評価を行った。
論文 参考訳(メタデータ) (2026-03-28T17:34:28Z) - Adaptive Ability Decomposing for Unlocking Large Reasoning Model Effective Reinforcement Learning [82.91265691530351]
A$2$Dは、検証可能な報酬による強化学習の有効性を高めるための適応能力分解手法である。
まず、蒸留なしでRLVRを介して分解器を訓練し、複雑な質問を単純なサブクエストの集合に分解する。
次に、このデコンパイラを使用して、トレーニングデータセットの各質問に対するサブクエストをアノテートし、サブクエストガイダンスを用いてRLVR下での推論をトレーニングする。
論文 参考訳(メタデータ) (2026-01-31T14:48:23Z) - GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Learning With Verifiable Rewards [13.369116707284121]
Divergence-in-Behavior Attack (DIBA)は、Reinforcement Learning with Verifiable Rewards用に特別に設計された最初のメンバーシップ推論フレームワークである。
以上の結果から,DIBAは既存のベースラインを大きく上回り,約0.8AUC,高次TPR@0.1%FPRを達成した。
これは、RLVRにおけるプライバシーの脆弱性を体系的に分析する最初の研究であり、データ露出のトレーニングが行動トレースを通じて確実に推測できることを明らかにする。
論文 参考訳(メタデータ) (2025-11-18T01:51:34Z) - SPARK: Synergistic Policy And Reward Co-Evolving Framework [84.22494672256894]
我々は、RLVR上に構築された効率的でオン・ポリティクス、安定した手法であるSPARK(Synergistic Policy and Reward Co-Evolving Framework)を紹介する。
ロールアウトと正確性データを捨てる代わりに、SPARKはこの貴重な情報をリサイクルし、生成的報酬モデルとしてモデル自体をトレーニングする。
SPARK は複数の LLM モデルと LVLM モデル,および複数の推論,報酬モデル,一般ベンチマークにおいて,大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-09-26T17:50:12Z) - Cognitive Exoskeleton: Augmenting Human Cognition with an AI-Mediated Intelligent Visual Feedback [11.149593958041937]
我々は、深層強化学習を活用し、適応的な時間圧力フィードバックを提供することで、算術的なタスクにおけるユーザパフォーマンスを向上させる。
タイムプレッシャーフィードバックは、ユーザの注意と不安を調節することによって、ユーザパフォーマンスを改善するか、劣化させる可能性がある。
本稿では,他のシミュレーションDRLエージェントと対話してユーザパフォーマンスを制御するために,規制DRLエージェントを訓練するデュアルDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-09T02:12:14Z) - AdamZ: An Enhanced Optimisation Method for Neural Network Training [1.54994260281059]
AdamZは、オーバーシューティングと停滞に対処するメカニズムを組み込むことで、学習率を動的に調整する。
損失関数の最小化に一貫して優れており、精度が重要なアプリケーションに特に有利である。
論文 参考訳(メタデータ) (2024-11-22T23:33:41Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。