論文の概要: Sequential Resource Trading Using Comparison-Based Gradient Estimation
- arxiv url: http://arxiv.org/abs/2408.11186v2
- Date: Sun, 3 Nov 2024 23:38:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:22:37.600313
- Title: Sequential Resource Trading Using Comparison-Based Gradient Estimation
- Title(参考訳): 比較ベース勾配推定を用いた逐次資源トレーディング
- Authors: Surya Murthy, Mustafa O. Karabag, Ufuk Topcu,
- Abstract要約: 資源割り当てのシーケンシャルなトレーディングを、2つの合理的なエージェントが有限のカテゴリから逐次的にリソースを交換する環境で検討する。
本稿では,提案エージェントが応答エージェントの勾配(参照)を推定し,事前の受け入れや拒絶の応答に基づいて提案を行うアルゴリズムを提案する。
有限個の提案が連続的に拒否された後、応答剤は最適に近い状態にあるか、エージェントの勾配が密に一致しているかを示す。
- 参考スコア(独自算出の注目度): 21.23354615468778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents interact with other agents of unknown preferences to share resources in their environment. We explore sequential trading for resource allocation in a setting where two greedily rational agents sequentially trade resources from a finite set of categories. Each agent has a utility function that depends on the amount of resources it possesses in each category. The offering agent makes trade offers to improve its utility without knowing the responding agent's utility function, and the responding agent only accepts offers that improve its utility. We present an algorithm for the offering agent to estimate the responding agent's gradient (preferences) and make offers based on previous acceptance or rejection responses. The algorithm's goal is to reach a Pareto-optimal resource allocation state while ensuring that the utilities of both agents improve after every accepted trade. We show that, after a finite number of consecutively rejected offers, the responding agent is at a near-optimal state, or the agents' gradients are closely aligned. We compare the proposed algorithm against various baselines in continuous and discrete trading scenarios and show that it improves the societal benefit with fewer offers.
- Abstract(参考訳): 自律エージェントは、環境内のリソースを共有するために、未知の好みの他のエージェントと対話する。
資源割り当てのシーケンシャルなトレーディングを、2つの合理的なエージェントが有限のカテゴリから逐次的にリソースを交換する環境で検討する。
各エージェントは、各カテゴリに保持するリソースの量に依存するユーティリティ関数を持つ。
提供エージェントは、応答エージェントのユーティリティ機能を知ることなく、そのユーティリティを改善するための取引オファーを行い、応答エージェントは、そのユーティリティを改善するオファーのみを受け入れる。
本稿では,提案エージェントが応答エージェントの勾配(参照)を推定し,事前の受け入れや拒絶の応答に基づいて提案を行うアルゴリズムを提案する。
アルゴリズムの目標は、パレート最適リソース割り当て状態に到達し、両方のエージェントのユーティリティが受け入れられた取引のたびに改善されることを保証することである。
有限個の提案が連続的に拒否された後、応答剤は最適に近い状態にあるか、エージェントの勾配が密に一致していることを示す。
提案アルゴリズムは, 連続的および離散的な取引シナリオにおいて, 様々なベースラインに対して比較し, より少ないオファーで社会的利益を向上させることを示す。
関連論文リスト
- Procurement Auctions via Approximately Optimal Submodular Optimization [53.93943270902349]
競売業者がプライベートコストで戦略的売り手からサービスを取得しようとする競売について検討する。
我々の目標は、取得したサービスの品質と販売者の総コストとの差を最大化する計算効率の良いオークションを設計することである。
論文 参考訳(メタデータ) (2024-11-20T18:06:55Z) - Graph Exploration for Effective Multi-agent Q-Learning [46.723361065955544]
本稿では,エージェント間のグラフベース通信を用いたマルチエージェント強化学習(MARL)の探索手法を提案する。
エージェントが受け取った個々の報酬は、他のエージェントのアクションとは独立していると仮定する一方で、そのポリシーは結合されている。
提案手法では,より効率的な爆発行動を実行するために,近隣のエージェントが協調して状態-作用空間の不確かさを推定する。
論文 参考訳(メタデータ) (2023-04-19T10:28:28Z) - Online Allocation and Learning in the Presence of Strategic Agents [16.124755488878044]
我々は,各エージェントが予め指定された各項目の分数を受けなければならないという制約の下で,$n$均質なエージェントのうち,$T$が順次到着するアイテムを割り当てる問題について検討する。
私たちの主な貢献は、ほぼベイズ的インセンティブ互換のオンライン学習ベースのアロケーションメカニズムです。
論文 参考訳(メタデータ) (2022-09-25T00:46:53Z) - Decentralized scheduling through an adaptive, trading-based multi-agent
system [1.7403133838762448]
多エージェント強化学習システムでは、あるエージェントの動作が他のエージェントの報酬に悪影響を及ぼす可能性がある。
この作業は、エージェントが入ってくるジョブをコアに割り当てる責任を負うシミュレーションスケジューリング環境に、トレーディングアプローチを適用します。
エージェントは計算コアの使用権を交換して、低優先度で低報酬のジョブよりも高速に、高利益のジョブを処理できる。
論文 参考訳(メタデータ) (2022-07-05T13:50:18Z) - Learning Multi-agent Skills for Tabular Reinforcement Learning using
Factor Graphs [41.17714498464354]
エージェント間の協調的な探索行動により,マルチエージェントの選択肢を直接計算できることが示唆された。
提案アルゴリズムは,マルチエージェントオプションの同定に成功し,シングルエージェントオプションや非オプションを用いることで,従来よりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-01-20T15:33:08Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Optimal Market Making by Reinforcement Learning [0.0]
古典的量的金融市場形成問題に強化学習アルゴリズムを適用する。
Deep Q-Learningアルゴリズムは最適なエージェントを復元する。
論文 参考訳(メタデータ) (2021-04-08T20:13:21Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - VCG Mechanism Design with Unknown Agent Values under Stochastic Bandit
Feedback [104.06766271716774]
本研究では,エージェントが自己の価値を知らない場合に,マルチラウンドの福祉最大化機構設計問題について検討する。
まず、福祉に対する後悔の3つの概念、各エージェントの個々のユーティリティ、メカニズムの3つの概念を定義します。
当社のフレームワークは価格体系を柔軟に制御し、エージェントと販売者の後悔のトレードオフを可能にする。
論文 参考訳(メタデータ) (2020-04-19T18:00:58Z) - Incentivizing Exploration with Selective Data Disclosure [70.11902902106014]
効率的な探索を促すレコメンデーションシステムを提案し設計する。
エージェントは順次到着し、固定されたが未知のアクション固有の分布から引き出されたアクションを選択し、報酬を受け取る。
フレキシブル・頻繁な行動モデルを用いた探索において,最適な後悔率が得られる。
論文 参考訳(メタデータ) (2018-11-14T19:29:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。