Fugu-MT 論文翻訳(概要): Reward Design in Cooperative Multi-agent Reinforcement Learning for Packet Routing

論文の概要: Reward Design in Cooperative Multi-agent Reinforcement Learning for Packet Routing

arxiv url: http://arxiv.org/abs/2003.03433v1
Date: Thu, 5 Mar 2020 02:27:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 07:28:53.090469
Title: Reward Design in Cooperative Multi-agent Reinforcement Learning for Packet Routing
Title（参考訳）: パケットルーティングのための協調型マルチエージェント強化学習における報酬設計
Authors: Hangyu Mao, Zhibo Gong, and Zhen Xiao
Abstract要約: パケットルーティング環境に基づく協調型マルチエージェント強化学習(MARL)における報酬設計問題について検討する。上述の2つの報奨信号が準最適ポリシーを生成する傾向にあることを示す。我々は、より良いポリシーを学ぶために、既成の報酬信号の混合を設計する。
参考スコア（独自算出の注目度）: 8.021402935358488
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In cooperative multi-agent reinforcement learning (MARL), how to design a suitable reward signal to accelerate learning and stabilize convergence is a critical problem. The global reward signal assigns the same global reward to all agents without distinguishing their contributions, while the local reward signal provides different local rewards to each agent based solely on individual behavior. Both of the two reward assignment approaches have some shortcomings: the former might encourage lazy agents, while the latter might produce selfish agents. In this paper, we study reward design problem in cooperative MARL based on packet routing environments. Firstly, we show that the above two reward signals are prone to produce suboptimal policies. Then, inspired by some observations and considerations, we design some mixed reward signals, which are off-the-shelf to learn better policies. Finally, we turn the mixed reward signals into the adaptive counterparts, which achieve best results in our experiments. Other reward signals are also discussed in this paper. As reward design is a very fundamental problem in RL and especially in MARL, we hope that MARL researchers can rethink the rewards used in their systems.
Abstract（参考訳）: 協調型マルチエージェント強化学習(marl)では,学習の促進と収束の安定化のために適切な報酬信号の設計が重要な課題である。グローバル報酬信号は、貢献を区別することなく、すべてのエージェントに同じグローバル報酬を割り当て、一方、ローカル報酬信号は個々の行動のみに基づいて各エージェントに異なるローカル報酬を提供する。前者は怠け者のエージェントを奨励するかもしれないし、後者は利己的なエージェントを生み出すかもしれない。本稿では,パケットルーティング環境に基づく協調型MARLにおける報酬設計問題について検討する。まず、上記の2つの報酬信号が最適以下のポリシーを生成する傾向があることを示す。そして、いくつかの観察と考察に触発されて、より優れたポリシーを学ぶために、既成の報奨信号の混合を設計する。最後に,混合報酬信号を適応信号に変換し,実験の最良の結果を得る。その他の報奨信号についても述べる。報酬デザインは、RL、特にMARLにおいて非常に基本的な問題であるため、MARLの研究者がシステムで使われる報酬を再考できることを願っている。

関連論文リスト

Reward Design for Reinforcement Learning Agents [7.306417438683523]
リワード機能は強化学習(RL)の中心であり、最適な意思決定を導くためのエージェントである。この論文は、RLにおける報酬シグナルの重要な役割を解明し、エージェントの行動と学習力学への影響を強調している。
論文参考訳（メタデータ） (2025-03-27T19:48:02Z)
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文参考訳（メタデータ） (2025-02-26T17:19:12Z)
Reinforcement Learning with Segment Feedback [56.54271464134885]
状態ごとの反応フィードバックと軌道フィードバックのギャップを埋める一般的なパラダイムを提供するRLというモデルを考える。バイナリフィードバックの下では、$m$のセグメント数の増加は指数率で後悔を減少させるが、驚くべきことに、和フィードバックの下では、$m$の増加は後悔を著しく減少させるものではない。
論文参考訳（メタデータ） (2025-02-03T23:08:42Z)
Process Reinforcement through Implicit Rewards [95.7442934212076]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文参考訳（メタデータ） (2025-02-03T15:43:48Z)
Beyond Simple Sum of Delayed Rewards: Non-Markovian Reward Modeling for Reinforcement Learning [44.770495418026734]
強化学習(Reinforcement Learning, RL)は、報酬信号から学習することで、エージェントに様々なスキルを習得する権限を与える。伝統的な手法では、マルコフ報酬の根底にある存在を仮定し、観測された遅延報酬は単にインスタンスレベルの報酬の和である。本稿では,特殊なインシーケンスアテンション機構を備えた複合遅延逆変換器(CoDeTr)を提案する。
論文参考訳（メタデータ） (2024-10-26T13:12:27Z)
The Dark Side of Rich Rewards: Understanding and Mitigating Noise in VLM Rewards [34.636688162807836]
VLM(Vision-Language Models)は、エンボディエージェントを訓練するための報酬信号を生成するために使われるようになっている。我々の研究によると、VLM報酬によって誘導されるエージェントは、本質的な報酬のみを使用するエージェントに比べて、しばしばパフォーマンスが劣っている。ノイズを緩和する新しい報奨関数であるBiMIを導入する。
論文参考訳（メタデータ） (2024-09-24T09:45:20Z)
Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。多くの実世界のシナリオでは、即時報酬信号の設計は困難である。本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文参考訳（メタデータ） (2024-02-06T07:26:44Z)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [57.627352949446625]
マルチアームバンディット問題の変種を考察する。具体的には、武器は、報酬を改善したり、吸収したりできる戦略的なエージェントである。我々は、プロパティの集合を満たすMABアルゴリズムのクラスを特定し、それらが平衡におけるトップレベルのパフォーマンスを刺激するメカニズムをもたらすことを示す。
論文参考訳（メタデータ） (2023-12-13T06:54:49Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Automatic Reward Design via Learning Motivation-Consistent Intrinsic Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文参考訳（メタデータ） (2022-07-29T14:52:02Z)
Agent-Temporal Attention for Reward Redistribution in Episodic Multi-Agent Reinforcement Learning [9.084006156825632]
本稿では,報酬の時間的再分配を学習し,報酬信号の高密度化を実現する手法の開発に焦点をあてる。本稿では,これら2つの課題に対処するために,エピソード型マルチエージェント強化学習(AREL)におけるリワード再分配のためのエージェント・テンポラル・アテンションを紹介する。 ARELは、現在最先端の3つの報酬再分配方法と比較して、Particle Worldの報酬が増加し、StarCraftの勝利率が向上した。
論文参考訳（メタデータ） (2022-01-12T18:35:46Z)
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文参考訳（メタデータ） (2021-10-26T11:24:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。