論文の概要: Instructing LLMs to Negotiate using Reinforcement Learning with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2604.09855v1
- Date: Fri, 10 Apr 2026 19:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.712505
- Title: Instructing LLMs to Negotiate using Reinforcement Learning with Verifiable Rewards
- Title(参考訳): 検証可能なリワードを用いた強化学習によるLLMの交渉指導
- Authors: Shuze Daniel Liu, Claire Chen, Jiabao Sean Xiao, Lei Lei, Yuheng Zhang, Yisong Yue, David Simchi-Levi,
- Abstract要約: 検証可能なリワードからの強化学習が,大規模言語モデルに交渉を効果的に教えることができるかを検討する。
我々は,中規模の買い手エージェントを,現実の商品を幅広く流通させた規制された売り手に対して訓練する枠組みを導入する。
以上の結果から,30Bエージェントは,余剰量を抽出する際の10倍のフロンティアモデルを大幅に上回る結果が得られた。
- 参考スコア(独自算出の注目度): 45.56436052535799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advancement of Large Language Models (LLMs) has established their potential as autonomous interactive agents. However, they often struggle in strategic games of incomplete information, such as bilateral price negotiation. In this paper, we investigate if Reinforcement Learning from Verifiable Rewards (RLVR) can effectively teach LLMs to negotiate. Specifically, we explore the strategic behaviors that emerge during the learning process. We introduce a framework that trains a mid-sized buyer agent against a regulated LLM seller across a wide distribution of real-world products. By grounding reward signals directly in the maximization of economic surplus and strict adherence to private budget constraints, we reveal a novel four-phase strategic evolution. The agent progresses from naive bargaining to using aggressive starting prices, moves through a phase of deadlock, and ultimately develops sophisticated persuasive skills. Our results demonstrate that this verifiable training allows a 30B agent to significantly outperform frontier models over ten times its size in extracting surplus. Furthermore, the trained agent generalizes robustly to stronger counterparties unseen during training and remains effective even when facing hostile, adversarial seller personas.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) は、自律的対話型エージェントとしての可能性を確立している。
しかし、二国間価格交渉など不完全な情報の戦略ゲームに苦戦することが多い。
本稿では,検証リワード(RLVR)による強化学習(Reinforcement Learning)が,LLMの交渉を効果的に指導できるかどうかを検討する。
具体的には,学習過程に現れる戦略的行動について考察する。
本研究では,中規模の買い手エージェントを規制されたLLM売り手に対して,現実世界の商品を多岐にわたって訓練する枠組みを提案する。
経済黒字の最大化と民間予算制約への厳格な固執に報酬信号を直接根拠として,新たな4段階戦略の展開を明らかにした。
エージェントは、素直な交渉から積極的な開始価格の使用へと進み、デッドロックの段階を進み、最終的には洗練された説得スキルを発達させる。
以上の結果から,30Bエージェントは,余剰量を抽出する際の10倍のフロンティアモデルを大幅に上回る結果が得られた。
さらに、訓練されたエージェントは、トレーニング中に目に見えない強い相手に強く一般化し、敵対的で敵対的な販売者ペルソナに直面しても有効である。
関連論文リスト
- PieArena: Frontier Language Agents Achieve MBA-Level Negotiation Performance and Reveal Novel Behavioral Differences [13.759960839511807]
マルチエージェントインタラクションを基盤とした大規模ベンチマークベンチマークであるPieArenaを紹介する。
代表的フロンティア言語エージェント(GPT-5)が、訓練されたビジネススクールの生徒と一致したり、成績が良くなった場合の、人間-専門家レベルのパフォーマンスの体系的証拠を見出した。
論文 参考訳(メタデータ) (2026-02-05T04:52:20Z) - When Greedy Wins: Emergent Exploitation Bias in Meta-Bandit LLM Training [26.66184262287797]
大規模言語モデル(LLM)は、しばしばシーケンシャルな意思決定において最適に探索する。
最近の研究は、教師付き微調整(SFT)や強化学習(RL)を通じてこの能力を向上し、古典的なマルチアームバンディットタスクの後悔を改善することを目指している。
本研究では,SFT を用いた LLM の訓練と,RL による様々な報奨信号の学習により,両パラダイムについて検討する。
その結果、エージェントは事前訓練されたモデルより優れ、アッパー信頼境界(UCB)やトンプソンサンプリングに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-29T15:25:42Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - How Well Can LLMs Negotiate? NegotiationArena Platform and Analysis [50.15061156253347]
人間は自動車の価格から共通の資源の共有方法まで、あらゆることを交渉する。
大規模言語モデル(LLM)を人間の代理エージェントとして使うことへの関心が急速に高まっているため、そのようなLLMエージェントも交渉できる必要がある。
我々は,LLMエージェントの交渉能力を評価し,検証するためのフレキシブルなフレームワークであるNegotiationArenaを開発した。
論文 参考訳(メタデータ) (2024-02-08T17:51:48Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。