論文の概要: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards
- arxiv url: http://arxiv.org/abs/2510.04214v2
- Date: Sat, 11 Oct 2025 14:15:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 13:29:55.63069
- Title: Teaching LLM to be Persuasive: Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards
- Title(参考訳): LLMを説得力のあるものに教える:"Reward-Enhanced Policy Optimization for Alignment frm Heterogeneous Rewards"
- Authors: Zhuoran Zhuang, Ye Chen, Xia Zeng, Chao Luo, Luhui Liu, Yihan Chen,
- Abstract要約: 我々は,大規模言語モデル(LLM)をビジネス開発(BD)エージェントとして展開し,オンライン旅行代理店(OTA)における説得的価格交渉を行う。
Reward-Enhanced Policy Optimization (REPO) は、LLMを不均一な報酬と整合する強化学習後学習フレームワークである。
RMとRJとRF信号を組み合わせることで、報酬のハッキングを抑え、交渉の質を向上させるため、簡単な拡張機構が提案されている。
- 参考スコア(独自算出の注目度): 16.217316324851343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study deploying large language models (LLMs) as business development (BD) agents for persuasive price negotiation in online travel agencies (OTAs), where aligning traveler affordability and hotel profitability directly affects bookings, partner relationships, and access to travel. The agent must follow a Standard Operating Procedure (SOP) while conducting multi-turn persuasion, interpreting colloquial inputs, and adhering to guardrails (no over-promising, no hallucinations). Conventional post-training -- supervised fine-tuning (SFT) or single-source reward optimization -- overfits scripts, misses nuanced persuasive style, and fails to enforce verifiable business constraints. We propose Reward-Enhanced Policy Optimization (REPO), a reinforcement learning post-training framework that aligns an LLM with heterogeneous rewards: a preference-trained reward model (RM) for dense human alignment, a reward judge (RJ) for high-level persuasive behavior and SOP compliance, and programmatic reward functions (RF) for deterministic checks on numerics, formatting, and guardrails. A straightforward enhancement mechanism is proposed to combine the RM with RJ and RF signals to curb reward hacking and improve negotiation quality. In production-style evaluations -- approximately 150 turns from real dialogues and 225 turns from curated bad-case dialogues -- REPO lifts average dialogue rating to 4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO); +0.33 over Group Relative Policy Optimization (GRPO), increases the share of conversations with at least one excellent response to 66.67% (+23.34 percentage points over GRPO), and achieves a 93.33% bad-case fix rate with 75.56% clean fixes, outperforming SFT, DPO, PPO, and GRPO. We also observe emergent capabilities -- proactive empathy, localized reasoning, calibrated tactics -- that surpass gold annotations.
- Abstract(参考訳): 本研究は,大規模言語モデル (LLM) をビジネス開発 (BD) エージェントとして展開し,旅行代行機関 (OTA) における説得力のある価格交渉を行う。
エージェントは、マルチターンの説得を行い、口語入力を解釈し、ガードレールに固執する(過剰なプロミッシング、幻覚なし)間、標準操作手順(SOP)に従う必要がある。
従来のポストトレーニング -- 教師付き微調整(SFT)やシングルソースの報酬最適化 -- は、スクリプトに過度に適合し、説得力に欠けるスタイルを見逃し、検証可能なビジネス制約を強制することができない。
Reward-Enhanced Policy Optimization (REPO) は、LLMと不均質な報酬とを整合させる強化学習後学習フレームワークであり、密集した人間アライメントのための嗜好訓練報酬モデル(RM)、高レベルの説得行動およびSOPコンプライアンスのための報奨判断モデル(RJ)、数値、フォーマット、ガードレールに関する決定論的チェックのためのプログラム報酬関数(RF)を提案する。
RMとRJとRF信号を組み合わせることで、報酬のハッキングを抑え、交渉の質を向上させるため、簡単な拡張機構が提案されている。
REPOは平均的な対話格付けを4.63: +1.20 over base, +0.83 over Direct Preference Optimization (DPO), +0.33 over Group Relative Policy Optimization (GRPO), more0.33 over Group Relative Policy Optimization (GRPO), increase the share of conversation with least one excellent response to 66.67% (+23.34 points over GRPO), and achieve a 93.33% bad-case Fix rate with 75.56% clean fix, outforming SFT, DPO, PPO, GRPO。
我々はまた、金のアノテーションを超える創発的な能力、積極的共感、局所的推論、調整された戦術も観察する。
関連論文リスト
- Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch Reinforcement Learning [31.843129392507716]
Jackpotは、ポリシーとロールアウトモデルを共同で更新する統合トレーニング目標を統合するフレームワークである。
我々の理論的分析は、OBRSが制御可能な受理予算の下で、目標分布に近いロールアウト分布を一貫して移動していることを示している。
論文 参考訳(メタデータ) (2026-02-05T18:57:01Z) - GOPO: Policy Optimization using Ranked Rewards [12.100854296428524]
Group Ordinal Policy Optimization (GOPO) は報酬のランク付けのみを使用し、その規模を廃止する。
さまざまなタスクとモデルサイズで一貫した改善を示します。
論文 参考訳(メタデータ) (2026-02-01T22:07:11Z) - GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization [133.27496265096445]
我々は,グループ相対的政策最適化を,その適合性を検討することなく,マルチリワード設定で適用する方法を示す。
次に、これらの問題を解決するための新しい政策最適化手法であるグループ報酬分離正規化政策最適化(GDPO)を紹介する。
GDPOはGRPOを一貫して上回り、マルチリワード強化学習最適化の有効性と一般化性を示す。
論文 参考訳(メタデータ) (2026-01-08T18:59:24Z) - A$^2$FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning [40.6234318894435]
大規模言語モデルは、推論中心のLLMとエージェントのLLMの2つのファミリーに分けられた。
この分割は、基本的に異なるトレーニング目標から生じ、単純なクエリに対して不一致の強度と非効率をもたらす。
本稿では,アダプティブ・エージェント・ファンデーション・モデル (A$2$FM) を提案する。
論文 参考訳(メタデータ) (2025-10-13T17:08:25Z) - Pre-Trained Policy Discriminators are General Reward Models [81.3974586561645]
政策差別学習(POLAR)という,スケーラブルな事前学習手法を提案する。
POLARは報酬モデル(RM)を訓練し、同一のポリシーを識別し、異なるポリシーを識別する。
実証実験の結果、POLARは従来の非事前学習法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-07-07T16:56:31Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Lean and Mean: Decoupled Value Policy Optimization with Global Value Guidance [52.65461207786633]
政策に基づく人間からのフィードバックからの強化学習は、大きな言語モデルと人間の嗜好の整合に不可欠である。
俳優と批評家の合同トレーニングと、事前訓練された一定の報酬モデルによる指導が必要である。
従来の報酬モデリングを事前訓練されたEmphglobal Value Model(GVM)に置き換えるリーンフレームワークである textbfDecoupled Value Policy Optimization (DVPO) を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:11:33Z) - RRM: Robust Reward Model Training Mitigates Reward Hacking [51.12341734942797]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
これらのアーティファクトとは無関係に好みを学習する因果的枠組みを導入する。
実験の結果,提案手法は望ましくないアーティファクトをフィルタし,より堅牢な報酬モデルを実現することができた。
論文 参考訳(メタデータ) (2024-09-20T01:46:07Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Pairwise Proximal Policy Optimization: Harnessing Relative Feedback for
LLM Alignment [37.52249093928251]
本稿では,新しい枠組み,相対的フィードバックによる強化学習,新しい軌道方向ポリシー勾配アルゴリズムを提案する。
理論的には、P3Oは等価報酬に不変であり、PPOの複雑さを避ける。
実証的な評価では、P3OはKL-RewardトレードオフにおいてPPOよりも優れており、ヒトの嗜好に合わせたり、以前の方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-09-30T01:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。