論文の概要: Learnable Strategies for Bilateral Agent Negotiation over Multiple
Issues
- arxiv url: http://arxiv.org/abs/2009.08302v2
- Date: Fri, 7 Jan 2022 14:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 11:55:15.664548
- Title: Learnable Strategies for Bilateral Agent Negotiation over Multiple
Issues
- Title(参考訳): 複数の問題に対するバイラテラルエージェントネゴシエーションの学習戦略
- Authors: Pallavi Bagga, Nicola Paoletti and Kostas Stathis
- Abstract要約: 本稿では,利己的なエージェントが複数の問題に対する交渉の仕方を学ぶことのできる,新たな二国間交渉モデルを提案する。
このモデルは、交渉中にエージェントが使うべき戦術を表す解釈可能な戦略テンプレートに依存している。
テンプレートパラメータを学習し、複数の交渉で受け取った平均効用を最大化し、最適な入札受理と生成をもたらす。
- 参考スコア(独自算出の注目度): 6.12762193927784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel bilateral negotiation model that allows a self-interested
agent to learn how to negotiate over multiple issues in the presence of user
preference uncertainty. The model relies upon interpretable strategy templates
representing the tactics the agent should employ during the negotiation and
learns template parameters to maximize the average utility received over
multiple negotiations, thus resulting in optimal bid acceptance and generation.
Our model also uses deep reinforcement learning to evaluate threshold utility
values, for those tactics that require them, thereby deriving optimal utilities
for every environment state. To handle user preference uncertainty, the model
relies on a stochastic search to find user model that best agrees with a given
partial preference profile. Multi-objective optimization and multi-criteria
decision-making methods are applied at negotiation time to generate
Pareto-optimal outcomes thereby increasing the number of successful (win-win)
negotiations. Rigorous experimental evaluations show that the agent employing
our model outperforms the winning agents of the 10th Automated Negotiating
Agents Competition (ANAC'19) in terms of individual as well as social-welfare
utilities.
- Abstract(参考訳): 本稿では,ユーザ嗜好の不確実性の存在下で,利害関係者が複数の課題について交渉する方法を学ぶための,新たな二国間交渉モデルを提案する。
このモデルは、交渉中にエージェントが使用する戦術を表す解釈可能な戦略テンプレートに依存し、テンプレートパラメータを学び、複数の交渉で受け取った平均的なユーティリティを最大化する。
また,本モデルでは深層強化学習を用いてしきい値の実用性評価を行い,環境条件ごとに最適な実用性を導出する。
ユーザの嗜好の不確実性に対処するため、そのモデルは確率的な探索に頼って、与えられた部分的嗜好プロファイルに最もよく一致するユーザモデルを見つける。
交渉時にマルチ目的最適化とマルチクリトリア意思決定法を適用し、パレートオプティカル結果を生成し、成功(勝利)交渉の数を増加させる。
厳密な実験評価により, 本モデルを用いたエージェントは, 第10回自動交渉エージェントコンペティション(anac'19)の優勝エージェントよりも, 社会福祉ユーティリティの面で優れていることが示された。
関連論文リスト
- Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues [47.977032883078664]
我々はLarge Language Models(LLM)に基づく支援エージェントを開発する。
2つのLLMエージェントをロールプレイに参加させることで、ビジネス交渉をシミュレートする。
第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換える仲介役として機能する。
論文 参考訳(メタデータ) (2024-01-29T09:07:40Z) - INA: An Integrative Approach for Enhancing Negotiation Strategies with
Reward-Based Dialogue System [22.392304683798866]
本稿では,オンラインマーケットプレース向けに設計された対話エージェントを提案する。
我々は,交渉担当者を訓練するための交渉作業に適した,一連の新しい報酬を雇用している。
提案手法と報奨システムはエージェントの交渉能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-27T15:31:16Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Targeted Data Acquisition for Evolving Negotiation Agents [6.953246373478702]
成功した交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ばなければならない。
現在の人工交渉エージェントは、トレーニングされた静的データセットの品質に大きく依存することが多い。
我々は、強化学習エージェントの探索をガイドするターゲットデータ取得フレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-14T19:45:59Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - Improving Dialog Systems for Negotiation with Personality Modeling [30.78850714931678]
本研究では,学習と推論の両方において,相手の性格型をカプセル化する確率的定式化を導入する。
CraigslistBargainデータセット上で本手法を検証し,ToM推論を用いた手法が20%高いダイアログ一致率を達成することを示す。
論文 参考訳(メタデータ) (2020-10-20T01:46:03Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - A Deep Reinforcement Learning Approach to Concurrent Bilateral
Negotiation [6.484413431061962]
本稿では,未知および動的電子市場において,エージェントが同時交渉の際の交渉方法を学ぶことのできる,新たな交渉モデルを提案する。
このエージェントは、モデルのない強化学習を備えたアクタークリティカルアーキテクチャを使用して、ディープニューラルネットワークとして表現された戦略を学ぶ。
その結果、事前プログラミングを必要とせず、異なる電子市場設定に適応できる並行交渉のための自動エージェントを構築できる。
論文 参考訳(メタデータ) (2020-01-31T12:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。