論文の概要: Strategic bidding in freight transport using deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2102.09253v1
- Date: Thu, 18 Feb 2021 10:17:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:17:22.733059
- Title: Strategic bidding in freight transport using deep reinforcement learning
- Title(参考訳): 深層強化学習を用いた貨物輸送における戦略入札
- Authors: Wouter van Heeswijk
- Abstract要約: 本稿では,貨物輸送市場における戦略的入札行動を表すマルチエージェント強化学習アルゴリズムを提案する。
本アルゴリズムを用いて,エージェント間の中央制御や通信を行わずに市場均衡が実現可能かどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a multi-agent reinforcement learning algorithm to
represent strategic bidding behavior in freight transport markets. Using this
algorithm, we investigate whether feasible market equilibriums arise without
any central control or communication between agents. Studying behavior in such
environments may serve as a stepping stone towards self-organizing logistics
systems like the Physical Internet. We model an agent-based environment in
which a shipper and a carrier actively learn bidding strategies using policy
gradient methods, posing bid- and ask prices at the individual container level.
Both agents aim to learn the best response given the expected behavior of the
opposing agent. A neutral broker allocates jobs based on bid-ask spreads.
Our game-theoretical analysis and numerical experiments focus on behavioral
insights. To evaluate system performance, we measure adherence to Nash
equilibria, fairness of reward division and utilization of transport capacity.
We observe good performance both in predictable, deterministic settings (~95%
adherence to Nash equilibria) and highly stochastic environments (~85%
adherence). Risk-seeking behavior may increase an agent's reward share, as long
as the strategies are not overly aggressive. The results suggest a potential
for full automation and decentralization of freight transport markets.
- Abstract(参考訳): 本稿では,貨物輸送市場における戦略的入札行動を表すマルチエージェント強化学習アルゴリズムを提案する。
本アルゴリズムを用いて,エージェント間の中央制御や通信を行わずに市場均衡が実現可能かどうかを検討する。
このような環境での学習行動は、物理インターネットのような自己組織型物流システムへの足掛かりとなるかもしれない。
我々は,出荷者と運送業者が政策グラデーション手法を用いて入札戦略を積極的に学習し,入札を行い,個々のコンテナレベルで価格を求めるエージェントベースの環境をモデル化する。
どちらのエージェントも、相手のエージェントが期待する行動を考えると、最善の反応を学ぶことを目指している。
中立ブローカーは入札の拡散に基づいてジョブを割り当てます。
我々のゲーム理論解析と数値実験は行動の洞察に焦点を当てている。
システム性能を評価するため, ナッシュ均衡, 報酬分配の公平性, 輸送能力の活用度を測定した。
予測可能,決定論的条件(ナッシュ均衡に約95%の順守)と確率的環境(約85%の順守)において良好な性能を示す。
リスク発見行動は、戦略が過度に攻撃的でない限り、エージェントの報酬シェアを増加させる可能性がある。
その結果,貨物輸送市場の完全自動化と分散化の可能性が示唆された。
関連論文リスト
- Strategic Classification With Externalities [11.36782598786846]
戦略分類問題の新しい変種を提案する。
実世界のアプリケーションによって動機づけられた我々のモデルは、あるエージェントの操作が他のエージェントに影響を与えることを決定的に許している。
特定の仮定の下では、このエージェント操作ゲームの純粋なナッシュ平衡はユニークであり、効率的に計算できることが示される。
論文 参考訳(メタデータ) (2024-10-10T15:28:04Z) - Deviations from the Nash equilibrium and emergence of tacit collusion in a two-player optimal execution game with reinforcement learning [0.9208007322096533]
2つの自律的エージェントが市場の影響下で同じ資産を最適に清算することを学習するシナリオについて検討する。
その結果,エージェントが学んだ戦略は,対応する市場影響ゲームのナッシュ均衡から大きく逸脱していることがわかった。
市場のボラティリティの異なるレベルがエージェントのパフォーマンスと彼らが発見する均衡にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-08-21T16:54:53Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Explaining Reinforcement Learning Policies through Counterfactual
Trajectories [147.7246109100945]
人間の開発者は、RLエージェントがテスト時にうまく機能することを検証しなければならない。
本手法では, エージェントの挙動をより広い軌道分布で示すことにより, エージェントの挙動を分布変化下で表現する。
本研究では,2つのエージェント検証タスクのうちの1つに対して,ベースライン法よりも優れたスコアを得られることを示す。
論文 参考訳(メタデータ) (2022-01-29T00:52:37Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Smart Containers With Bidding Capacity: A Policy Gradient Algorithm for
Semi-Cooperative Learning [0.0]
自己組織型コンテナは、スポットマーケット環境で輸送サービスに入札を行うことができる。
情報とコストを互いに共有することで、スマートコンテナは入札ポリシーを共同で学習することができる。
政策枠組みに基づく強化学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-05-01T18:37:38Z) - Multi-Issue Bargaining With Deep Reinforcement Learning [0.0]
本稿では,バーゲティングゲームにおける深層強化学習の活用について検討する。
入札と受け入れ戦略のために2つのアクター・クリティカル・ネットワークが訓練された。
ニューラルエージェントは時間ベースのエージェントを活用することを学び、決定優先値の明確な遷移を達成する。
彼らはまた、譲歩、割引要因、行動に基づく戦略の異なる組み合わせに対して適応的な行動を示す。
論文 参考訳(メタデータ) (2020-02-18T18:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。