論文の概要: A Fairness-Driven Method for Learning Human-Compatible Negotiation Strategies
- arxiv url: http://arxiv.org/abs/2409.18335v1
- Date: Thu, 26 Sep 2024 23:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 07:00:37.273265
- Title: A Fairness-Driven Method for Learning Human-Compatible Negotiation Strategies
- Title(参考訳): フェアネス駆動による人間対応型ネゴシエーション戦略の学習
- Authors: Ryan Shea, Zhou Yu,
- Abstract要約: 報酬設計と探索に公正さを取り入れた交渉枠組みを提案し,人間と互換性のある交渉戦略を学習する。
提案手法は,より平等な交渉結果を達成し,交渉の質を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 19.595627721072812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advancements in AI and NLP, negotiation remains a difficult domain for AI agents. Traditional game theoretic approaches that have worked well for two-player zero-sum games struggle in the context of negotiation due to their inability to learn human-compatible strategies. On the other hand, approaches that only use human data tend to be domain-specific and lack the theoretical guarantees provided by strategies grounded in game theory. Motivated by the notion of fairness as a criterion for optimality in general sum games, we propose a negotiation framework called FDHC which incorporates fairness into both the reward design and search to learn human-compatible negotiation strategies. Our method includes a novel, RL+search technique called LGM-Zero which leverages a pre-trained language model to retrieve human-compatible offers from large action spaces. Our results show that our method is able to achieve more egalitarian negotiation outcomes and improve negotiation quality.
- Abstract(参考訳): AIとNLPの最近の進歩にもかかわらず、交渉はAIエージェントにとって難しい領域である。
2人プレイのゼロサムゲームでうまく機能する伝統的なゲーム理論のアプローチは、人間互換の戦略を学べないため、交渉の文脈で苦労する。
一方、人間のデータのみを使用するアプローチは、ドメイン固有であり、ゲーム理論に根ざした戦略によって提供される理論的保証を欠く傾向にある。
一般のサムゲームにおける最適性の基準としての公正性の概念に触発されて、報酬設計と探索の両方に公正性を適用して人間互換の交渉戦略を学習するFDHCと呼ばれる交渉フレームワークを提案する。
我々の手法はLGM-Zeroと呼ばれる新しいRL+検索技術を含んでおり、LGM-Zeroはトレーニング済みの言語モデルを利用して大規模なアクション空間から人間互換のオファーを検索する。
提案手法は,より平等な交渉結果を達成し,交渉の質を向上させることができることを示す。
関連論文リスト
- LLMs with Personalities in Multi-issue Negotiation Games [2.186901738997927]
ゲーム理論の枠組みの中で,大規模言語モデル(LLM)の交渉能力を測定する。
高い開放性、良心、神経症は公正な傾向と関連している。
低一致性と低開放性は合理的な傾向と関連している。
論文 参考訳(メタデータ) (2024-05-08T17:51:53Z) - Policy Learning with a Language Bottleneck [65.99843627646018]
PLLBB(Policy Learning with a Language Bottleneck)は、AIエージェントが言語規則を生成するためのフレームワークである。
PLLBBは、言語モデルによってガイドされるルール生成ステップと、エージェントがルールによってガイドされる新しいポリシーを学ぶ更新ステップとを交互に使用する。
2人のプレイヤーによるコミュニケーションゲーム、迷路解決タスク、および2つの画像再構成タスクにおいて、PLLBBエージェントはより解釈可能で一般化可能な振る舞いを学習できるだけでなく、学習したルールを人間のユーザと共有できることを示す。
論文 参考訳(メタデータ) (2024-05-07T08:40:21Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Aligning Language Models with Human Preferences via a Bayesian Approach [11.984246334043673]
人間中心の自然言語生成(NLG)システムを推し進めるためには、NLGモデルと人間の嗜好の整合性を確保することが不可欠である。
本稿では,人選好における不一致の分布を選好モデルのトレーニングとして考慮するために,ベイズ的枠組みを用いた新しいアプローチを提案する。
自動評価と人的評価の両方において,従来のSOTAモデルよりずっと上回っている。
論文 参考訳(メタデータ) (2023-10-09T15:15:05Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - PECAN: Leveraging Policy Ensemble for Context-Aware Zero-Shot Human-AI
Coordination [52.991211077362586]
本研究では,集団におけるパートナーの多様性を高めるための政策アンサンブル手法を提案する。
そこで我々は,egoエージェントがパートナーの潜在的ポリシープリミティブを分析し,識別するためのコンテキスト認識手法を開発した。
このようにして、エゴエージェントは多様なパートナーとの共同作業において、より普遍的な協調行動を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-16T12:14:58Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - A Data-Driven Method for Recognizing Automated Negotiation Strategies [13.606307819976161]
本稿では,相手の交渉戦略を認識するための新しいデータ駆動型手法を提案する。
我々の手法は、エージェントがドメインに依存しないシーケンスを生成するためのデータ生成方法を含む。
4つの問題シナリオにまたがる広範な実験を行い、アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-07-03T20:43:47Z) - An Autonomous Negotiating Agent Framework with Reinforcement Learning
Based Strategies and Adaptive Strategy Switching Mechanism [3.4376560669160394]
本研究は,専門家選択の問題の解決と,我々の自律交渉エージェントフレームワークで相手の行動に適応することに焦点を当てる。
我々のフレームワークは、新しい戦略を含めるか、古い戦略を定期的により良い戦略で置き換えることを決定することで、自己改善機能を可能にするレビュアーコンポーネントを持っています。
論文 参考訳(メタデータ) (2021-02-06T14:38:03Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z) - Emergence of Pragmatics from Referential Game between Theory of Mind
Agents [64.25696237463397]
エージェントが手書きのルールを指定せずに「行間を読む」能力を自発的に学習するアルゴリズムを提案する。
協調型マルチエージェント教育状況における心の理論(ToM)を統合し,適応型強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T19:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。