論文の概要: ASTRA: A Negotiation Agent with Adaptive and Strategic Reasoning through Action in Dynamic Offer Optimization
- arxiv url: http://arxiv.org/abs/2503.07129v1
- Date: Mon, 10 Mar 2025 09:57:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.830634
- Title: ASTRA: A Negotiation Agent with Adaptive and Strategic Reasoning through Action in Dynamic Offer Optimization
- Title(参考訳): ASTRA:動的オファリング最適化における動作による適応的・戦略的推論を用いたネゴシエーションエージェント
- Authors: Deuksin Kwon, Jiwon Hae, Emma Clift, Daniel Shamsoddini, Jonathan Gratch, Gale M. Lucas,
- Abstract要約: 交渉は自己利益と協力を動的にバランスさせ、自身の効用を最大化する。
ターンレベルのオファリング最適化のための新しいフレームワークであるASTRAをベースとした,原則駆動型ネゴシエーションエージェントを提案する。
ASTRAは,(1)対向行動の解釈,(2)線形プログラミング(LP)ソルバによる対向者最適化,(3)交渉方略とパートナーの受理確率に基づくオファーの選択の3段階からなる。
- 参考スコア(独自算出の注目度): 3.5844764276701726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Negotiation requires dynamically balancing self-interest and cooperation to maximize one's own utility. Yet, existing agents struggle due to bounded rationality in human data, low adaptability to counterpart behavior, and limited strategic reasoning. To address this, we introduce principle-driven negotiation agents, powered by ASTRA, a novel framework for turn-level offer optimization grounded in two core principles: opponent modeling and Tit-for-Tat reciprocity. ASTRA operates in three stages: (1) interpreting counterpart behavior, (2) optimizing counteroffers via a linear programming (LP) solver, and (3) selecting offers based on negotiation tactics and the partner's acceptance probability. Through simulations and human evaluations, our agent effectively adapts to an opponent's shifting stance and achieves favorable outcomes through enhanced adaptability and strategic reasoning. Beyond improving negotiation performance, it also serves as a powerful coaching tool, offering interpretable strategic feedback and optimal offer recommendations.
- Abstract(参考訳): 交渉は自己利益と協力を動的にバランスさせ、自身の効用を最大化する。
しかし、既存のエージェントは、人間のデータにおける有界な合理性、対応する行動への適応性の低さ、限られた戦略的推論のために苦労している。
これを解決するために、ターンレベルのオファー最適化のための新しいフレームワークであるASTRAをベースとした原則駆動交渉エージェントを導入し、対戦相手モデリングとTit-for-Tat相互性という2つの基本原理を基礎とした。
ASTRA は,(1) 対向行動の解釈,(2) 線形プログラミング(LP) ソルバによる対向動作の最適化,(3) 交渉方略とパートナーの受理確率に基づくオファーの選択の3段階からなる。
シミュレーションと人的評価により,エージェントは効果的に相手のシフト姿勢に適応し,適応性の向上と戦略的推論を通じて良好な結果を得る。
交渉パフォーマンスの改善に加えて、強力なコーチングツールとしても機能し、解釈可能な戦略的フィードバックと最適なオファーレコメンデーションを提供する。
関連論文リスト
- Pushing Forward Pareto Frontiers of Proactive Agents with Behavioral Agentic Optimization [61.641777037967366]
プロアクティブな大規模言語モデル(LLM)エージェントは、複数のターンで積極的に計画し、クエリし、相互作用することを目的としている。
エージェント強化学習(RL)は、マルチターン環境でエージェントを訓練するための有望なソリューションとして登場した。
本稿では,行動強化と情報収集能力の強化を両立させたエージェントRLフレームワークであるBAOを提案する。
論文 参考訳(メタデータ) (2026-02-11T20:40:43Z) - MERIT Feedback Elicits Better Bargaining in LLM Negotiators [38.1466669265123]
AgoraBenchは、9つの困難な設定にまたがる新しいベンチマークである。
これは、エージェントユーティリティ、交渉力、および交渉が人間の好みとどの程度うまく一致しているかを暗黙的に測定する買収比率を介して運用される。
我々のメカニズムは交渉性能を大幅に改善し、より深い戦略行動とより強力な敵意識をもたらす。
論文 参考訳(メタデータ) (2026-02-11T03:09:45Z) - ChargingBoul: A Competitive Negotiating Agent with Novel Opponent Modeling [0.0]
本稿では,2022年自動交渉エージェントコンペティション(ANAC)に出場した交渉エージェントChargingBoulを紹介する。
ChargingBoulは、高い交渉結果を達成するために、譲歩と反対モデリングのバランスをとる、軽量で効果的な戦略を採用している。
本研究は、競争結果と交渉研究におけるエージェントを利用したその後の研究を用いて、ChargingBoulのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2025-12-06T23:32:11Z) - AgentRec: Next-Generation LLM-Powered Multi-Agent Collaborative Recommendation with Adaptive Intelligence [4.638507244153875]
本稿では,次世代マルチエージェント協調レコメンデーションフレームワークであるAgentRecを紹介する。
提案手法では,会話理解,嗜好モデル,文脈認識,動的ランキングに,特殊なLLMエージェントを用いる。
3つの実世界のデータセットの実験では、AgentRecは最先端のベースラインよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2025-10-02T02:47:11Z) - EvoEmo: Towards Evolved Emotional Policies for Adversarial LLM Agents in Multi-Turn Price Negotiation [61.627248012799704]
既存のLarge Language Models (LLM)エージェントは、そのような交渉における感情の機能的役割をほとんど見落としている。
本稿では,交渉における動的感情表現を最適化する進化的強化学習フレームワークであるEvoEmoを紹介する。
論文 参考訳(メタデータ) (2025-09-04T15:23:58Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [53.732649189709285]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - Learning to Lead: Incentivizing Strategic Agents in the Dark [50.93875404941184]
一般化プリンシパルエージェントモデルのオンライン学習バージョンについて検討する。
この挑戦的な設定のための最初の証明可能なサンプル効率アルゴリズムを開発した。
我々は、プリンシパルの最適ポリシーを学ぶために、ほぼ最適な $tildeO(sqrtT) $ regret bound を確立する。
論文 参考訳(メタデータ) (2025-06-10T04:25:04Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - LLM Agents for Bargaining with Utility-based Feedback [23.357706450282002]
ユーティリティベースのフィードバックを中心とした包括的フレームワークを導入する。
1)新しいベンチマークデータセットであるBargainArena,(2)ユーティリティ理論にインスパイアされた人力による経済的な評価指標,(3)LCMを反復的にバリ取り戦略を洗練させる構造的フィードバックメカニズムである。
論文 参考訳(メタデータ) (2025-05-29T02:07:27Z) - EmoDebt: Bayesian-Optimized Emotional Intelligence for Strategic Agent-to-Agent Debt Recovery [65.30120701878582]
大規模言語モデル(LLM)エージェントは、負債収集のような感情に敏感なドメインの悪用に対して脆弱である。
EmoDebtは、ネゴシエーションにおける感情を表現するモデルの能力を、シーケンシャルな意思決定問題として再設計する感情インテリジェンスエンジンである。
EmoDebtは重要な戦略的堅牢性を実現し、非適応性と感情に依存しないベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-27T01:41:34Z) - EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning [69.55982246413046]
戦略的推論のための明示的なポリシー最適化(EPO)を提案する。
EPOはオープンなアクション空間で戦略を提供し、任意のLLMエージェントにプラグインすることで、ゴール指向の振る舞いを動機付けることができる。
社会的および物理的領域にわたる実験は、EPOの長期的なゴールアライメント能力を示す。
論文 参考訳(メタデータ) (2025-02-18T03:15:55Z) - Reason4Rec: Large Language Models for Recommendation with Deliberative User Preference Alignment [69.11529841118671]
本稿では,ユーザの嗜好に関する明確な推論を新たなアライメント目標として組み込んだ,新たなDeliberative Recommendationタスクを提案する。
次にReasoningを利用したRecommenderフレームワークを導入する。
論文 参考訳(メタデータ) (2025-02-04T07:17:54Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - Targeted Data Acquisition for Evolving Negotiation Agents [6.953246373478702]
成功した交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ばなければならない。
現在の人工交渉エージェントは、トレーニングされた静的データセットの品質に大きく依存することが多い。
我々は、強化学習エージェントの探索をガイドするターゲットデータ取得フレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-14T19:45:59Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - An Autonomous Negotiating Agent Framework with Reinforcement Learning
Based Strategies and Adaptive Strategy Switching Mechanism [3.4376560669160394]
本研究は,専門家選択の問題の解決と,我々の自律交渉エージェントフレームワークで相手の行動に適応することに焦点を当てる。
我々のフレームワークは、新しい戦略を含めるか、古い戦略を定期的により良い戦略で置き換えることを決定することで、自己改善機能を可能にするレビュアーコンポーネントを持っています。
論文 参考訳(メタデータ) (2021-02-06T14:38:03Z) - Universal Trading for Order Execution with Oracle Policy Distillation [99.57416828489568]
本稿では,不完全な市場状態と注文実行のための最適な行動シーケンスとのギャップを埋める,新たなユニバーサル取引ポリシー最適化フレームワークを提案する。
本研究の枠組みは,完全情報を持つ託宣教師による実践的最適実行に向けて,共通政策の学習を指導する上で有効であることを示す。
論文 参考訳(メタデータ) (2021-01-28T05:52:18Z) - Learnable Strategies for Bilateral Agent Negotiation over Multiple
Issues [6.12762193927784]
本稿では,利己的なエージェントが複数の問題に対する交渉の仕方を学ぶことのできる,新たな二国間交渉モデルを提案する。
このモデルは、交渉中にエージェントが使うべき戦術を表す解釈可能な戦略テンプレートに依存している。
テンプレートパラメータを学習し、複数の交渉で受け取った平均効用を最大化し、最適な入札受理と生成をもたらす。
論文 参考訳(メタデータ) (2020-09-17T13:52:18Z) - Automated Configuration of Negotiation Strategies [0.0]
入札と受理戦略は、線形加法および非線形効用関数を持つシナリオにおける交渉の結果に大きな影響を及ぼす。
提案手法は,自動アルゴリズムの構成を利用して,特定のネゴシエーション設定のための最善の戦略を見つける手法である。
自動設定されたエージェントは他のエージェントよりも優れており、次のエージェントに比べて交渉のペイオフが5.1%増加していることを示す。
論文 参考訳(メタデータ) (2020-03-31T20:31:33Z) - A Deep Reinforcement Learning Approach to Concurrent Bilateral
Negotiation [6.484413431061962]
本稿では,未知および動的電子市場において,エージェントが同時交渉の際の交渉方法を学ぶことのできる,新たな交渉モデルを提案する。
このエージェントは、モデルのない強化学習を備えたアクタークリティカルアーキテクチャを使用して、ディープニューラルネットワークとして表現された戦略を学ぶ。
その結果、事前プログラミングを必要とせず、異なる電子市場設定に適応できる並行交渉のための自動エージェントを構築できる。
論文 参考訳(メタデータ) (2020-01-31T12:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。