論文の概要: Designing an efficient and equitable humanitarian supply chain dynamically via reinforcement learning
- arxiv url: http://arxiv.org/abs/2505.17439v1
- Date: Fri, 23 May 2025 03:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.797567
- Title: Designing an efficient and equitable humanitarian supply chain dynamically via reinforcement learning
- Title(参考訳): 強化学習による効率的で公平な人道的サプライチェーンの動的設計
- Authors: Weijia Jin,
- Abstract要約: 本研究では, 強化学習, PPO を用いて, アルゴリズムとの比較により, 効率的で公平な人道的サプライチェーンを動的に設計する。
本研究は,PPOのモデルが常に平均満足度を優先的に扱うことを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study designs an efficient and equitable humanitarian supply chain dynamically by using reinforcement learning, PPO, and compared with heuristic algorithms. This study demonstrates the model of PPO always treats average satisfaction rate as the priority.
- Abstract(参考訳): 本研究では,強化学習,PPO,ヒューリスティックアルゴリズムを用いて,効率的で公平な人道的サプライチェーンを動的に設計する。
本研究は,PPOのモデルが常に平均満足度を優先的に扱うことを示した。
関連論文リスト
- Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [3.30671592417223]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。
既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。
そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-03T16:16:35Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Posterior Sampling for Deep Reinforcement Learning [0.0]
本稿では, 深層強化学習のための後方サンプリング (PSDRL) について紹介する。
Atariベンチマークの実験では、PSDRLは後方サンプリングをスケールアップする従来の最先端の試行を著しく上回っている。
論文 参考訳(メタデータ) (2023-04-30T13:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。