論文の概要: ASTRA: A Negotiation Agent with Adaptive and Strategic Reasoning through Action in Dynamic Offer Optimization
- arxiv url: http://arxiv.org/abs/2503.07129v1
- Date: Mon, 10 Mar 2025 09:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:25.529273
- Title: ASTRA: A Negotiation Agent with Adaptive and Strategic Reasoning through Action in Dynamic Offer Optimization
- Title(参考訳): ASTRA:動的オファリング最適化における動作による適応的・戦略的推論を用いたネゴシエーションエージェント
- Authors: Deuksin Kwon, Jiwon Hae, Emma Clift, Daniel Shamsoddini, Jonathan Gratch, Gale M. Lucas,
- Abstract要約: 交渉は自己利益と協力を動的にバランスさせ、自身の効用を最大化する。
ターンレベルのオファリング最適化のための新しいフレームワークであるASTRAをベースとした,原則駆動型ネゴシエーションエージェントを提案する。
ASTRAは,(1)対向行動の解釈,(2)線形プログラミング(LP)ソルバによる対向者最適化,(3)交渉方略とパートナーの受理確率に基づくオファーの選択の3段階からなる。
- 参考スコア(独自算出の注目度): 3.5844764276701726
- License:
- Abstract: Negotiation requires dynamically balancing self-interest and cooperation to maximize one's own utility. Yet, existing agents struggle due to bounded rationality in human data, low adaptability to counterpart behavior, and limited strategic reasoning. To address this, we introduce principle-driven negotiation agents, powered by ASTRA, a novel framework for turn-level offer optimization grounded in two core principles: opponent modeling and Tit-for-Tat reciprocity. ASTRA operates in three stages: (1) interpreting counterpart behavior, (2) optimizing counteroffers via a linear programming (LP) solver, and (3) selecting offers based on negotiation tactics and the partner's acceptance probability. Through simulations and human evaluations, our agent effectively adapts to an opponent's shifting stance and achieves favorable outcomes through enhanced adaptability and strategic reasoning. Beyond improving negotiation performance, it also serves as a powerful coaching tool, offering interpretable strategic feedback and optimal offer recommendations.
- Abstract(参考訳): 交渉は自己利益と協力を動的にバランスさせ、自身の効用を最大化する。
しかし、既存のエージェントは、人間のデータにおける有界な合理性、対応する行動への適応性の低さ、限られた戦略的推論のために苦労している。
これを解決するために、ターンレベルのオファー最適化のための新しいフレームワークであるASTRAをベースとした原則駆動交渉エージェントを導入し、対戦相手モデリングとTit-for-Tat相互性という2つの基本原理を基礎とした。
ASTRA は,(1) 対向行動の解釈,(2) 線形プログラミング(LP) ソルバによる対向動作の最適化,(3) 交渉方略とパートナーの受理確率に基づくオファーの選択の3段階からなる。
シミュレーションと人的評価により,エージェントは効果的に相手のシフト姿勢に適応し,適応性の向上と戦略的推論を通じて良好な結果を得る。
交渉パフォーマンスの改善に加えて、強力なコーチングツールとしても機能し、解釈可能な戦略的フィードバックと最適なオファーレコメンデーションを提供する。
関連論文リスト
- EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Targeted Data Acquisition for Evolving Negotiation Agents [6.953246373478702]
成功した交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ばなければならない。
現在の人工交渉エージェントは、トレーニングされた静的データセットの品質に大きく依存することが多い。
我々は、強化学習エージェントの探索をガイドするターゲットデータ取得フレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-14T19:45:59Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - An Autonomous Negotiating Agent Framework with Reinforcement Learning
Based Strategies and Adaptive Strategy Switching Mechanism [3.4376560669160394]
本研究は,専門家選択の問題の解決と,我々の自律交渉エージェントフレームワークで相手の行動に適応することに焦点を当てる。
我々のフレームワークは、新しい戦略を含めるか、古い戦略を定期的により良い戦略で置き換えることを決定することで、自己改善機能を可能にするレビュアーコンポーネントを持っています。
論文 参考訳(メタデータ) (2021-02-06T14:38:03Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Learnable Strategies for Bilateral Agent Negotiation over Multiple
Issues [6.12762193927784]
本稿では,利己的なエージェントが複数の問題に対する交渉の仕方を学ぶことのできる,新たな二国間交渉モデルを提案する。
このモデルは、交渉中にエージェントが使うべき戦術を表す解釈可能な戦略テンプレートに依存している。
テンプレートパラメータを学習し、複数の交渉で受け取った平均効用を最大化し、最適な入札受理と生成をもたらす。
論文 参考訳(メタデータ) (2020-09-17T13:52:18Z) - Automated Configuration of Negotiation Strategies [0.0]
入札と受理戦略は、線形加法および非線形効用関数を持つシナリオにおける交渉の結果に大きな影響を及ぼす。
提案手法は,自動アルゴリズムの構成を利用して,特定のネゴシエーション設定のための最善の戦略を見つける手法である。
自動設定されたエージェントは他のエージェントよりも優れており、次のエージェントに比べて交渉のペイオフが5.1%増加していることを示す。
論文 参考訳(メタデータ) (2020-03-31T20:31:33Z) - A Deep Reinforcement Learning Approach to Concurrent Bilateral
Negotiation [6.484413431061962]
本稿では,未知および動的電子市場において,エージェントが同時交渉の際の交渉方法を学ぶことのできる,新たな交渉モデルを提案する。
このエージェントは、モデルのない強化学習を備えたアクタークリティカルアーキテクチャを使用して、ディープニューラルネットワークとして表現された戦略を学ぶ。
その結果、事前プログラミングを必要とせず、異なる電子市場設定に適応できる並行交渉のための自動エージェントを構築できる。
論文 参考訳(メタデータ) (2020-01-31T12:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。