Fugu-MT 論文翻訳(概要): Autonomous Negotiation Using Comparison-Based Gradient Estimation

論文の概要: Autonomous Negotiation Using Comparison-Based Gradient Estimation

arxiv url: http://arxiv.org/abs/2408.11186v1
Date: Tue, 20 Aug 2024 20:42:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 21:06:50.028166
Title: Autonomous Negotiation Using Comparison-Based Gradient Estimation
Title（参考訳）: 比較ベース勾配推定を用いた自律ネゴシエーション
Authors: Surya Murthy, Mustafa O. Karabag, Ufuk Topcu,
Abstract要約: 交渉はマルチエージェントシステムにおける対立を解決するのに有用である。 2つの利己的な合理的なエージェントが、有限のカテゴリからアイテムを順次取引する環境で、自律的な交渉について検討する。提案手法は,事前の受理応答や拒絶応答によって提供物を生成する。
参考スコア（独自算出の注目度）: 21.23354615468778
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Negotiation is useful for resolving conflicts in multi-agent systems. We explore autonomous negotiation in a setting where two self-interested rational agents sequentially trade items from a finite set of categories. Each agent has a utility function that depends on the amount of items it possesses in each category. The offering agent makes trade offers to improve its utility without knowing the responding agent's utility function, and the responding agent accepts offers that improve its utility. We present a comparison-based algorithm for the offering agent that generates offers through previous acceptance or rejection responses without extensive information sharing. The algorithm estimates the responding agent's gradient by leveraging the rationality assumption and rejected offers to prune the space of potential gradients. After the algorithm makes a finite number of consecutively rejected offers, the responding agent is at a near-optimal state, or the agents' preferences are closely aligned. Additionally, we facilitate negotiations with humans by representing natural language feedback as comparisons that can be integrated into the proposed algorithm. We compare the proposed algorithm against random search baselines in integer and fractional trading scenarios and show that it improves the societal benefit with fewer offers.
Abstract（参考訳）: 交渉はマルチエージェントシステムにおける対立を解決するのに有用である。 2つの利己的な合理的なエージェントが、有限のカテゴリからアイテムを順次取引する環境で、自律的な交渉について検討する。各エージェントは、各カテゴリに保持するアイテムの量に依存するユーティリティ機能を持つ。提供エージェントは、応答エージェントのユーティリティ機能を知ることなく、そのユーティリティを改善するための取引オファーを行い、応答エージェントは、そのユーティリティを改善するオファーを受け入れる。本稿では,情報共有を伴わずに,事前の受理応答や拒否応答を通じてオファーを生成するオファーエージェントの比較に基づくアルゴリズムを提案する。アルゴリズムは、有理性仮定を利用して応答エージェントの勾配を推定し、潜在的な勾配の空間を立証する提案を拒絶する。アルゴリズムが有限個の提案を連続的に拒否した後、応答剤は最適に近い状態にあるか、エージェントの嗜好が密接に一致している。さらに、提案アルゴリズムに組み込むことができる比較として、自然言語フィードバックを表現することにより、人間との交渉を促進する。提案したアルゴリズムを整数および分数取引シナリオにおけるランダム検索ベースラインと比較し、より少ないオファーで社会的利益を向上させることを示す。

関連論文リスト

Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文参考訳（メタデータ） (2024-11-20T18:06:55Z)
From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文参考訳（メタデータ） (2024-11-06T10:35:11Z)
Deep Multi-Agent Reinforcement Learning for Decentralized Active Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文参考訳（メタデータ） (2023-09-14T01:18:04Z)
Estimating and Incentivizing Imperfect-Knowledge Agents with Hidden Rewards [4.742123770879715]
実際には、インセンティブ提供者はインセンティブ付きエージェントの報酬実現を観察できないことが多い。本稿では,自己関心学習エージェントと学習プリンシパルの繰り返し選択ゲームについて検討する。我々は,プリンシパルのインセンティブとエージェントの選択履歴のみを入力とする推定器を導入する。
論文参考訳（メタデータ） (2023-08-13T08:12:01Z)
Graph Exploration for Effective Multi-agent Q-Learning [46.723361065955544]
本稿では,エージェント間のグラフベース通信を用いたマルチエージェント強化学習(MARL)の探索手法を提案する。エージェントが受け取った個々の報酬は、他のエージェントのアクションとは独立していると仮定する一方で、そのポリシーは結合されている。提案手法では,より効率的な爆発行動を実行するために,近隣のエージェントが協調して状態-作用空間の不確かさを推定する。
論文参考訳（メタデータ） (2023-04-19T10:28:28Z)
Online Allocation and Learning in the Presence of Strategic Agents [16.124755488878044]
我々は,各エージェントが予め指定された各項目の分数を受けなければならないという制約の下で,$n$均質なエージェントのうち,$T$が順次到着するアイテムを割り当てる問題について検討する。私たちの主な貢献は、ほぼベイズ的インセンティブ互換のオンライン学習ベースのアロケーションメカニズムです。
論文参考訳（メタデータ） (2022-09-25T00:46:53Z)
Decentralized scheduling through an adaptive, trading-based multi-agent system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文参考訳（メタデータ） (2022-07-05T13:50:18Z)
Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文参考訳（メタデータ） (2022-06-01T00:44:53Z)
Learning Multi-agent Skills for Tabular Reinforcement Learning using Factor Graphs [41.17714498464354]
エージェント間の協調的な探索行動により,マルチエージェントの選択肢を直接計算できることが示唆された。提案アルゴリズムは,マルチエージェントオプションの同定に成功し,シングルエージェントオプションや非オプションを用いることで,従来よりも大幅に性能が向上する。
論文参考訳（メタデータ） (2022-01-20T15:33:08Z)
Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文参考訳（メタデータ） (2021-12-03T19:23:48Z)
Optimal Market Making by Reinforcement Learning [0.0]
古典的量的金融市場形成問題に強化学習アルゴリズムを適用する。 Deep Q-Learningアルゴリズムは最適なエージェントを復元する。
論文参考訳（メタデータ） (2021-04-08T20:13:21Z)
Multi-agent Policy Optimization with Approximatively Synchronous Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。本研究では,近似的に同期する利点推定を提案する。
論文参考訳（メタデータ） (2020-12-07T07:29:19Z)
VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文参考訳（メタデータ） (2020-04-19T18:00:58Z)
Incentivizing Exploration with Selective Data Disclosure [70.11902902106014]
効率的な探索を促すレコメンデーションシステムを提案し設計する。エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文参考訳（メタデータ） (2018-11-14T19:29:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。