論文の概要: Extending NGU to Multi-Agent RL: A Preliminary Study
- arxiv url: http://arxiv.org/abs/2512.01321v1
- Date: Mon, 01 Dec 2025 06:24:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.712802
- Title: Extending NGU to Multi-Agent RL: A Preliminary Study
- Title(参考訳): NGUをマルチエージェントRLに拡張する : 予備研究
- Authors: Juan Hernandez, Diego Fernández, Manuel Cifuentes, Denis Parra, Rodrigo Toro Icarte,
- Abstract要約: Never Give Up (NGU) アルゴリズムは, 漸進的ノベルティと本質的モチベーションを組み合わせることで, スパース報酬による強化学習タスクに有効であることが証明されている。
NGUをマルチエージェント環境に拡張し,PetttingZoo スイートから Simple_tag 環境での性能を評価する。
- 参考スコア(独自算出の注目度): 5.930146073589303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Never Give Up (NGU) algorithm has proven effective in reinforcement learning tasks with sparse rewards by combining episodic novelty and intrinsic motivation. In this work, we extend NGU to multi-agent environments and evaluate its performance in the simple_tag environment from the PettingZoo suite. Compared to a multi-agent DQN baseline, NGU achieves moderately higher returns and more stable learning dynamics. We investigate three design choices: (1) shared replay buffer versus individual replay buffers, (2) sharing episodic novelty among agents using different k thresholds, and (3) using heterogeneous values of the beta parameter. Our results show that NGU with a shared replay buffer yields the best performance and stability, highlighting that the gains come from combining NGU intrinsic exploration with experience sharing. Novelty sharing performs comparably when k = 1 but degrades learning for larger values. Finally, heterogeneous beta values do not improve over a small common value. These findings suggest that NGU can be effectively applied in multi-agent settings when experiences are shared and intrinsic exploration signals are carefully tuned.
- Abstract(参考訳): Never Give Up (NGU) アルゴリズムは, 漸進的ノベルティと本質的モチベーションを組み合わせることで, スパース報酬による強化学習タスクに有効であることが証明されている。
本研究では、NGUをマルチエージェント環境に拡張し、PettingZoo スイートの Simple_tag 環境での性能を評価する。
マルチエージェントDQNベースラインと比較して、NGUは適度に高いリターンとより安定した学習ダイナミクスを達成する。
我々は,(1)個別のリプレイバッファと個別のリプレイバッファの共有,(2)異なるk閾値のエージェント間でのエピソジックな新規性,(3)ベータパラメータの不均一な値の共有,の3つの設計選択について検討する。
その結果,共有再生バッファを持つNGUは最高の性能と安定性を示し,NGU固有の探索と経験共有を組み合わせることで得られる成果が示された。
k = 1 のとき、新規性共有は相容れないが、より大きな値の学習を分解する。
最後に、不均一ベータ値は、小さな共通値よりも改善されない。
これらの結果から,NGUは経験を共有し,本質的な探索信号が注意深く調整された場合に,マルチエージェント設定に効果的に適用可能であることが示唆された。
関連論文リスト
- Investigating the Interplay of Prioritized Replay and Generalization [23.248982121562985]
本稿では,TD誤差に比例してサンプリングを行う優先経験再生(PER)について検討する。
PERは動的プログラミングにおける優先順位付けされたスイーピングの成功にインスパイアされている。
論文 参考訳(メタデータ) (2024-07-12T21:56:24Z) - Contrastive Neural Ratio Estimation for Simulation-based Inference [15.354874711988662]
Likelihood-to-evidence ratio Estimation は通常、バイナリ (NRE-A) またはマルチクラス (NRE-B) の分類タスクとしてキャストされる。
バイナリ分類フレームワークとは対照的に、現在のマルチクラスバージョンの定式化は本質的で未知のバイアス項を持つ。
我々は,NRE-Bに固有のバイアスを最適に含まないマルチクラスフレームワークを提案し,実践者が依存する診断を行う立場に置かれる。
論文 参考訳(メタデータ) (2022-10-11T00:12:51Z) - Neighborhood Mixup Experience Replay: Local Convex Interpolation for
Improved Sample Efficiency in Continuous Control Tasks [60.88792564390274]
Neighborhood Mixup Experience Replay (NMER) は、状態-作用空間における遷移を補間する幾何学的に接地されたリプレイバッファである。
NMERは,ベースライン再生バッファ上で平均94%(TD3)と29%(SAC)のサンプリング効率を向上する。
論文 参考訳(メタデータ) (2022-05-18T02:44:08Z) - RSG: A Simple but Effective Module for Learning Imbalanced Datasets [99.77194308426606]
本稿では,レアクラスのサンプル生成装置(RSG)を提案し,トレーニング中にレアクラスのサンプルを新たに生成する。
RSGは、様々な種類の畳み込みニューラルネットワークに容易に組み込むことができるため、使いやすく、非常に多用途である。
RSGを用いたIm Balanced CIFAR, ImageNet-LT, iNaturalist 2018の競争結果を得た。
論文 参考訳(メタデータ) (2021-06-18T01:10:27Z) - RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation [7.0471949371778795]
本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。
最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。
第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
論文 参考訳(メタデータ) (2021-06-08T03:30:50Z) - MetaKernel: Learning Variational Random Features with Limited Labels [120.90737681252594]
少数の注釈付きサンプルから学習し、新しいタスクでうまく一般化できるという根本的かつ困難な問題に、少数のショットラーニングが対処します。
マルチショット学習のためのランダムなフーリエ機能を備えたメタラーニングカーネルをMeta Kernelと呼びます。
論文 参考訳(メタデータ) (2021-05-08T21:24:09Z) - Multi-agent Policy Optimization with Approximatively Synchronous
Advantage Estimation [55.96893934962757]
マルチエージェントシステムでは、異なるエージェントの警察を共同で評価する必要がある。
現在の方法では、バリュー関数やアドバンテージ関数は非同期に評価される対実関節アクションを使用する。
本研究では,近似的に同期する利点推定を提案する。
論文 参考訳(メタデータ) (2020-12-07T07:29:19Z) - Improving Generalization in Reinforcement Learning with Mixture
Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。
Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。
その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文 参考訳(メタデータ) (2020-10-21T08:12:03Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。