論文の概要: Learnable Strategies for Bilateral Agent Negotiation over Multiple
Issues
- arxiv url: http://arxiv.org/abs/2009.08302v2
- Date: Fri, 7 Jan 2022 14:01:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-17 11:55:15.664548
- Title: Learnable Strategies for Bilateral Agent Negotiation over Multiple
Issues
- Title(参考訳): 複数の問題に対するバイラテラルエージェントネゴシエーションの学習戦略
- Authors: Pallavi Bagga, Nicola Paoletti and Kostas Stathis
- Abstract要約: 本稿では,利己的なエージェントが複数の問題に対する交渉の仕方を学ぶことのできる,新たな二国間交渉モデルを提案する。
このモデルは、交渉中にエージェントが使うべき戦術を表す解釈可能な戦略テンプレートに依存している。
テンプレートパラメータを学習し、複数の交渉で受け取った平均効用を最大化し、最適な入札受理と生成をもたらす。
- 参考スコア(独自算出の注目度): 6.12762193927784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel bilateral negotiation model that allows a self-interested
agent to learn how to negotiate over multiple issues in the presence of user
preference uncertainty. The model relies upon interpretable strategy templates
representing the tactics the agent should employ during the negotiation and
learns template parameters to maximize the average utility received over
multiple negotiations, thus resulting in optimal bid acceptance and generation.
Our model also uses deep reinforcement learning to evaluate threshold utility
values, for those tactics that require them, thereby deriving optimal utilities
for every environment state. To handle user preference uncertainty, the model
relies on a stochastic search to find user model that best agrees with a given
partial preference profile. Multi-objective optimization and multi-criteria
decision-making methods are applied at negotiation time to generate
Pareto-optimal outcomes thereby increasing the number of successful (win-win)
negotiations. Rigorous experimental evaluations show that the agent employing
our model outperforms the winning agents of the 10th Automated Negotiating
Agents Competition (ANAC'19) in terms of individual as well as social-welfare
utilities.
- Abstract(参考訳): 本稿では,ユーザ嗜好の不確実性の存在下で,利害関係者が複数の課題について交渉する方法を学ぶための,新たな二国間交渉モデルを提案する。
このモデルは、交渉中にエージェントが使用する戦術を表す解釈可能な戦略テンプレートに依存し、テンプレートパラメータを学び、複数の交渉で受け取った平均的なユーティリティを最大化する。
また,本モデルでは深層強化学習を用いてしきい値の実用性評価を行い,環境条件ごとに最適な実用性を導出する。
ユーザの嗜好の不確実性に対処するため、そのモデルは確率的な探索に頼って、与えられた部分的嗜好プロファイルに最もよく一致するユーザモデルを見つける。
交渉時にマルチ目的最適化とマルチクリトリア意思決定法を適用し、パレートオプティカル結果を生成し、成功(勝利)交渉の数を増加させる。
厳密な実験評価により, 本モデルを用いたエージェントは, 第10回自動交渉エージェントコンペティション(anac'19)の優勝エージェントよりも, 社会福祉ユーティリティの面で優れていることが示された。
関連論文リスト
- LLM Rationalis? Measuring Bargaining Capabilities of AI Negotiators [2.1952520391635586]
バイラテラルネゴシエーションは、人間の交渉者がアンカー、ペーシング、柔軟性を動的に調整し、パワー・アシンメトリーと非公式な手段を利用する複雑なコンテキスト依存のタスクである。
双曲的接点曲線に基づく譲歩力学をモデル化するための統一的な数学的枠組みを導入する。
人間の交渉者と4つの最先端の大規模言語モデル(LLM)を、自然言語と数値的な設定で大規模に比較した。
論文 参考訳(メタデータ) (2025-12-15T07:50:09Z) - ChargingBoul: A Competitive Negotiating Agent with Novel Opponent Modeling [0.0]
本稿では,2022年自動交渉エージェントコンペティション(ANAC)に出場した交渉エージェントChargingBoulを紹介する。
ChargingBoulは、高い交渉結果を達成するために、譲歩と反対モデリングのバランスをとる、軽量で効果的な戦略を採用している。
本研究は、競争結果と交渉研究におけるエージェントを利用したその後の研究を用いて、ChargingBoulのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2025-12-06T23:32:11Z) - EQ-Negotiator: Dynamic Emotional Personas Empower Small Language Models for Edge-Deployable Credit Negotiation [66.09161596959771]
小型言語モデル (SLM) は実用的な代替手段を提供するが、大規模言語モデル (LLM) と比較して大きな性能差がある。
本稿では,感情的ペルソナを用いて,この能力ギャップを橋渡しする新しいフレームワークであるEQ-Negotiatorを紹介する。
EQ-Negotiator を用いた 7B パラメータ言語モデルは,ベースライン LLM の 10 倍以上の大きさで,債務回復と交渉効率が向上することを示す。
論文 参考訳(メタデータ) (2025-11-05T11:25:07Z) - EvoEmo: Towards Evolved Emotional Policies for Adversarial LLM Agents in Multi-Turn Price Negotiation [61.627248012799704]
既存のLarge Language Models (LLM)エージェントは、そのような交渉における感情の機能的役割をほとんど見落としている。
本稿では,交渉における動的感情表現を最適化する進化的強化学習フレームワークであるEvoEmoを紹介する。
論文 参考訳(メタデータ) (2025-09-04T15:23:58Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Dynamic Evaluation Framework for Personalized and Trustworthy Agents: A Multi-Session Approach to Preference Adaptability [10.443994990138973]
我々は、パーソナライズされた適応的なエージェントを評価するパラダイムシフトについて論じる。
本稿では,ユニークな属性と好みを持つユーザペルソナをモデル化する包括的新しいフレームワークを提案する。
私たちのフレキシブルなフレームワークは、さまざまなエージェントやアプリケーションをサポートし、レコメンデーション戦略の包括的で汎用的な評価を保証するように設計されています。
論文 参考訳(メタデータ) (2025-03-08T22:50:26Z) - Reproducibility Study of Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [0.0]
様々なオープンウェイトモデルを用いて,元の知見を検証した。
本稿では,エージェント間相互作用を伴わずに交渉を成功させるかどうかを検証するためのコミュニケーションフリーのベースラインを提案する。
この研究は、LLMベースの交渉システムのアクセシビリティ、公正性、環境への影響、およびプライバシーに関する考察も提供する。
論文 参考訳(メタデータ) (2025-02-22T14:28:49Z) - Beyond Predictions: A Participatory Framework for Multi-Stakeholder Decision-Making [3.3044728148521623]
本稿では,複数株主最適化問題として意思決定を再定義する新たな参加型フレームワークを提案する。
我々のフレームワークは、コンテキスト依存の報酬関数を通じて各アクターの好みをキャプチャする。
本稿では,複数の指標にまたがるユーザ定義の選好を利用して意思決定戦略をランク付けする合成スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-02-12T16:27:40Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Aligning Large Language Models by On-Policy Self-Judgment [49.31895979525054]
大規模言語モデルと人間の嗜好を整合させる既存のアプローチは、オンライン学習のために別々の報酬モデル(RM)を必要とするトレードオフに直面しています。
本稿では,オンライン学習を行う新たなアライメントフレームワークSELF-JUDGEを提案する。
また, さらなる評価を行なわずに, サンプリング自体がさらなる性能向上に寄与することを示した。
論文 参考訳(メタデータ) (2024-02-17T11:25:26Z) - Assistive Large Language Model Agents for Socially-Aware Negotiation Dialogues [47.977032883078664]
我々はLarge Language Models(LLM)に基づく支援エージェントを開発する。
2つのLLMエージェントをロールプレイに参加させることで、ビジネス交渉をシミュレートする。
第3のLLMは、交渉結果を改善するための基準に違反した発話を書き換える仲介役として機能する。
論文 参考訳(メタデータ) (2024-01-29T09:07:40Z) - INA: An Integrative Approach for Enhancing Negotiation Strategies with
Reward-Based Dialogue System [22.392304683798866]
本稿では,オンラインマーケットプレース向けに設計された対話エージェントを提案する。
我々は,交渉担当者を訓練するための交渉作業に適した,一連の新しい報酬を雇用している。
提案手法と報奨システムはエージェントの交渉能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-10-27T15:31:16Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Targeted Data Acquisition for Evolving Negotiation Agents [6.953246373478702]
成功した交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ばなければならない。
現在の人工交渉エージェントは、トレーニングされた静的データセットの品質に大きく依存することが多い。
我々は、強化学習エージェントの探索をガイドするターゲットデータ取得フレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-14T19:45:59Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - Improving Dialog Systems for Negotiation with Personality Modeling [30.78850714931678]
本研究では,学習と推論の両方において,相手の性格型をカプセル化する確率的定式化を導入する。
CraigslistBargainデータセット上で本手法を検証し,ToM推論を用いた手法が20%高いダイアログ一致率を達成することを示す。
論文 参考訳(メタデータ) (2020-10-20T01:46:03Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - A Deep Reinforcement Learning Approach to Concurrent Bilateral
Negotiation [6.484413431061962]
本稿では,未知および動的電子市場において,エージェントが同時交渉の際の交渉方法を学ぶことのできる,新たな交渉モデルを提案する。
このエージェントは、モデルのない強化学習を備えたアクタークリティカルアーキテクチャを使用して、ディープニューラルネットワークとして表現された戦略を学ぶ。
その結果、事前プログラミングを必要とせず、異なる電子市場設定に適応できる並行交渉のための自動エージェントを構築できる。
論文 参考訳(メタデータ) (2020-01-31T12:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。