論文の概要: Targeted Data Acquisition for Evolving Negotiation Agents
- arxiv url: http://arxiv.org/abs/2106.07728v1
- Date: Mon, 14 Jun 2021 19:45:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 09:21:58.787411
- Title: Targeted Data Acquisition for Evolving Negotiation Agents
- Title(参考訳): 交渉エージェントの進化のためのターゲットデータ取得
- Authors: Minae Kwon, Siddharth Karamcheti, Mariano-Florentino Cuellar, Dorsa
Sadigh
- Abstract要約: 成功した交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ばなければならない。
現在の人工交渉エージェントは、トレーニングされた静的データセットの品質に大きく依存することが多い。
我々は、強化学習エージェントの探索をガイドするターゲットデータ取得フレームワークを導入する。
- 参考スコア(独自算出の注目度): 6.953246373478702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Successful negotiators must learn how to balance optimizing for self-interest
and cooperation. Yet current artificial negotiation agents often heavily depend
on the quality of the static datasets they were trained on, limiting their
capacity to fashion an adaptive response balancing self-interest and
cooperation. For this reason, we find that these agents can achieve either high
utility or cooperation, but not both. To address this, we introduce a targeted
data acquisition framework where we guide the exploration of a reinforcement
learning agent using annotations from an expert oracle. The guided exploration
incentivizes the learning agent to go beyond its static dataset and develop new
negotiation strategies. We show that this enables our agents to obtain
higher-reward and more Pareto-optimal solutions when negotiating with both
simulated and human partners compared to standard supervised learning and
reinforcement learning methods. This trend additionally holds when comparing
agents using our targeted data acquisition framework to variants of agents
trained with a mix of supervised learning and reinforcement learning, or to
agents using tailored reward functions that explicitly optimize for utility and
Pareto-optimality.
- Abstract(参考訳): 成功する交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ぶ必要がある。
しかし、現在の人工交渉エージェントは、訓練された静的データセットの品質に大きく依存し、自己関心と協力のバランスをとる適応的な応答を形作る能力を制限する。
このため、これらのエージェントは高い実用性または協調性を達成することができるが、両方は達成できない。
これを解決するために,専門家の託宣のアノテーションを用いた強化学習エージェントの探索を指導するターゲットデータ取得フレームワークを導入する。
このガイド付き探索は、学習エージェントに静的データセットを超えて新しい交渉戦略を開発するようインセンティブを与える。
その結果, エージェントは, 通常の教師付き学習法や強化学習法と比較して, シミュレーションおよびヒューマンパートナーとの交渉において, より高位に, よりパレートな最適解を得ることができた。
この傾向は、対象とするデータ取得フレームワークを使用したエージェントを、教師付き学習と強化学習の混合で訓練されたエージェントの亜種と比較する場合や、ユーティリティとパレート最適化を明示的に最適化した報酬関数を使用したエージェントと比較する場合にも有効である。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Communication Learning in Multi-Agent Systems from Graph Modeling Perspective [62.13508281188895]
本稿では,エージェント間の通信アーキテクチャを学習可能なグラフとして概念化する手法を提案する。
本稿では,各エージェントに対して時間的ゲーティング機構を導入し,ある時間に共有情報を受信するかどうかの動的決定を可能にする。
論文 参考訳(メタデータ) (2024-11-01T05:56:51Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Expert-Free Online Transfer Learning in Multi-Agent Reinforcement
Learning [2.984934409689467]
Expert-Free Online Transfer Learning (EF-OnTL) は、マルチエージェントシステムにおけるエキスパートフリーリアルタイム動的トランスファー学習を可能にするアルゴリズムである。
EF-OnTLはアドバイスベースのベースラインと比較すると、全体的なパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-03-02T11:21:03Z) - Behaviour-conditioned policies for cooperative reinforcement learning
tasks [41.74498230885008]
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-04T09:16:41Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Agent-Centric Representations for Multi-Agent Reinforcement Learning [12.577354830985012]
完全協調型マルチエージェント強化学習において,対象中心表現が有用であるかどうかを検討する。
具体的には、RLアルゴリズムにエージェント中心の誘導バイアスを組み込む2つの方法を検討する。
これらのアプローチをGoogle Research Football環境およびDeepMind Lab 2D上で評価します。
論文 参考訳(メタデータ) (2021-04-19T15:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。