論文の概要: Smart Containers With Bidding Capacity: A Policy Gradient Algorithm for
Semi-Cooperative Learning
- arxiv url: http://arxiv.org/abs/2005.00565v1
- Date: Fri, 1 May 2020 18:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:19:44.473328
- Title: Smart Containers With Bidding Capacity: A Policy Gradient Algorithm for
Semi-Cooperative Learning
- Title(参考訳): バイディング能力を持つスマートコンテナ - 半協調学習のためのポリシー勾配アルゴリズム
- Authors: Wouter van Heeswijk
- Abstract要約: 自己組織型コンテナは、スポットマーケット環境で輸送サービスに入札を行うことができる。
情報とコストを互いに共有することで、スマートコンテナは入札ポリシーを共同で学習することができる。
政策枠組みに基づく強化学習アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smart modular freight containers -- as propagated in the Physical Internet
paradigm -- are equipped with sensors, data storage capability and intelligence
that enable them to route themselves from origin to destination without manual
intervention or central governance. In this self-organizing setting, containers
can autonomously place bids on transport services in a spot market setting.
However, for individual containers it may be difficult to learn good bidding
policies due to limited observations. By sharing information and costs between
one another, smart containers can jointly learn bidding policies, even though
simultaneously competing for the same transport capacity. We replicate this
behavior by learning stochastic bidding policies in a semi-cooperative multi
agent setting. To this end, we develop a reinforcement learning algorithm based
on the policy gradient framework. Numerical experiments show that sharing
solely bids and acceptance decisions leads to stable bidding policies.
Additional system information only marginally improves performance; individual
job properties suffice to place appropriate bids. Furthermore, we find that
carriers may have incentives not to share information with the smart
containers. The experiments give rise to several directions for follow-up
research, in particular the interaction between smart containers and transport
services in self-organizing logistics.
- Abstract(参考訳): スマートモジュールの貨物コンテナは、物理インターネットパラダイムで普及している。センサー、データストレージ機能、インテリジェンスを備えており、手動による介入や中央管理なしに、自分自身を目的地から目的地へとルーティングすることができる。
この自己組織的な環境では、コンテナはスポット市場における交通サービスへの入札を自律的に行うことができる。
しかし、個々のコンテナにとって、観測が限られているため、適切な入札ポリシーを学ぶのは難しいかもしれない。
情報とコストを互いに共有することにより、スマートコンテナは、同じトランスポート容量を同時に競合しながら、入札ポリシーを共同で学習することができる。
半協力型マルチエージェント設定で確率的入札ポリシーを学習することで,この挙動を再現する。
この目的のために,ポリシー勾配フレームワークに基づく強化学習アルゴリズムを開発した。
数値実験により、共有入札と受諾決定のみが安定した入札政策につながることが示されている。
追加のシステム情報は性能をわずかに改善するだけであり、個々のジョブプロパティは適切な入札を行うのに十分である。
さらに、キャリアがスマートコンテナと情報を共有しないインセンティブがあることもわかりました。
この実験はフォローアップ研究、特に自己組織型ロジスティクスにおけるスマートコンテナとトランスポートサービスとのインタラクションのいくつかの方向性を生み出している。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Conformal Policy Learning for Sensorimotor Control Under Distribution
Shifts [61.929388479847525]
本稿では,センサコントローラの観測値の分布変化を検知・応答する問題に焦点をあてる。
鍵となる考え方は、整合量子を入力として取ることができるスイッチングポリシーの設計である。
本稿では, 基本方針を異なる特性で切り替えるために, 共形量子関数を用いてこのようなポリシーを設計する方法を示す。
論文 参考訳(メタデータ) (2023-11-02T17:59:30Z) - Robot Fleet Learning via Policy Merging [58.5086287737653]
我々はFLEET-MERGEを提案し、艦隊設定における政策を効率的にマージする。
本稿では,FLEET-MERGEがメタワールド環境における50のタスクで訓練されたポリシーの行動を統合することを示す。
合成・接触に富んだロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール用ベンチマークであるFLEET-TOOLSを導入する。
論文 参考訳(メタデータ) (2023-10-02T17:23:51Z) - Adversarial Constrained Bidding via Minimax Regret Optimization with
Causality-Aware Reinforcement Learning [18.408964908248855]
既存の制限入札のアプローチは、典型的には列車と試験条件に依存している。
本研究では,教師が教師の学習環境を学習する環境と,学習者が与えられた環境分布に対してその方針をメタ学習する環境とをインターリーブする,Minimax Regret Optimization (MiRO) 手法を提案する。
因果性認識強化学習(MiROCL)を用いたMIROは,従来の手法よりも30%以上優れていた。
論文 参考訳(メタデータ) (2023-06-12T13:31:58Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Containerized Distributed Value-Based Multi-Agent Reinforcement Learning [18.79371121484969]
コンテナ化されたマルチエージェント強化学習フレームワークを提案する。
本誌のやり方は、Google Research Footballのフルゲーム5.v_5$の難題を解く最初の方法だ。
StarCraft IIマイクロマネジメントベンチマークでは、最先端の非分散MARLアルゴリズムと比較して4-18times$よい結果が得られる。
論文 参考訳(メタデータ) (2021-10-15T15:54:06Z) - Wasserstein Unsupervised Reinforcement Learning [29.895142928565228]
教師なし強化学習は、エージェントに外部の報酬なしに、いくつかのポリシーやスキルを学ぶよう訓練することを目的としている。
これらの事前訓練されたポリシーは、外部報酬が与えられた場合の潜在学習を加速し、階層的強化学習における原始的な選択肢としても使用できる。
そこで我々は,異なる政策によって引き起こされる状態分布の距離を直接的に最大化する,ワッサーシュタイン無教師強化学習(WURL)を提案する。
論文 参考訳(メタデータ) (2021-10-15T08:41:51Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Strategic bidding in freight transport using deep reinforcement learning [0.0]
本稿では,貨物輸送市場における戦略的入札行動を表すマルチエージェント強化学習アルゴリズムを提案する。
本アルゴリズムを用いて,エージェント間の中央制御や通信を行わずに市場均衡が実現可能かどうかを検討する。
論文 参考訳(メタデータ) (2021-02-18T10:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。