論文の概要: Blockchain-assisted Demonstration Cloning for Multi-Agent Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.10938v1
- Date: Sun, 19 Jan 2025 04:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:24:50.777727
- Title: Blockchain-assisted Demonstration Cloning for Multi-Agent Deep Reinforcement Learning
- Title(参考訳): ブロックチェーンを利用した深層強化学習のための実証的クローン化
- Authors: Ahmed Alagha, Jamal Bentahar, Hadi Otrok, Shakti Singh, Rabeb Mizouni,
- Abstract要約: MDRL(Multi-Agent Deep Reinforcement Learning)は、エージェントが協調的または競争的な環境で複雑な行動を学習する、有望な研究分野である。
近年のフェデレーション強化学習(FRL)の取り組みは,モデル制約や悪意に関わる問題に悩まされている。
本稿では,MDRLのための新しい多機能デモクローニング(MEDC)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.605693371392212
- License:
- Abstract: Multi-Agent Deep Reinforcement Learning (MDRL) is a promising research area in which agents learn complex behaviors in cooperative or competitive environments. However, MDRL comes with several challenges that hinder its usability, including sample efficiency, curse of dimensionality, and environment exploration. Recent works proposing Federated Reinforcement Learning (FRL) to tackle these issues suffer from problems related to model restrictions and maliciousness. Other proposals using reward shaping require considerable engineering and could lead to local optima. In this paper, we propose a novel Blockchain-assisted Multi-Expert Demonstration Cloning (MEDC) framework for MDRL. The proposed method utilizes expert demonstrations in guiding the learning of new MDRL agents, by suggesting exploration actions in the environment. A model sharing framework on Blockchain is designed to allow users to share their trained models, which can be allocated as expert models to requesting users to aid in training MDRL systems. A Consortium Blockchain is adopted to enable traceable and autonomous execution without the need for a single trusted entity. Smart Contracts are designed to manage users and models allocation, which are shared using IPFS. The proposed framework is tested on several applications, and is benchmarked against existing methods in FRL, Reward Shaping, and Imitation Learning-assisted RL. The results show the outperformance of the proposed framework in terms of learning speed and resiliency to faulty and malicious models.
- Abstract(参考訳): MDRL(Multi-Agent Deep Reinforcement Learning)は、エージェントが協調的または競争的な環境で複雑な行動を学習する、有望な研究分野である。
しかし、MDRLには、サンプル効率、次元の呪い、環境探索など、その使用性を阻害するいくつかの課題が伴っている。
近年のフェデレーション強化学習(FRL)の取り組みは,モデル制約や悪意に関わる問題に悩まされている。
報酬形成を使用する他の提案では、かなりのエンジニアリングが必要であり、局所的な最適化につながる可能性がある。
本稿では,MDRLのためのBlockchain-assisted Multi-Expert Demonstration Cloning (MEDC)フレームワークを提案する。
提案手法は,新しいMDRLエージェントの学習を指導する専門家によるデモンストレーションを利用して,環境における探索行動を提案する。
Blockchainのモデル共有フレームワークは、トレーニングされたモデルの共有を可能にするように設計されている。
Consortium Blockchainは、単一の信頼できるエンティティを必要とせずに、トレーサブルで自律的な実行を可能にするために採用されている。
Smart Contractsは、IPFSを使用して共有されるユーザとモデルのアロケーションを管理するように設計されている。
提案するフレームワークはいくつかのアプリケーションでテストされており、FRL、Reward Shaping、Imitation Learning-assisted RLの既存の手法とベンチマークされている。
その結果、学習速度と、欠陥モデルや悪意モデルに対するレジリエンスの観点から、提案フレームワークの性能が低下していることが判明した。
関連論文リスト
- FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Efficient Multi-agent Reinforcement Learning by Planning [33.51282615335009]
マルチエージェント強化学習(MARL)アルゴリズムは、大規模意思決定タスクの解決において、目覚ましいブレークスルーを達成している。
既存のMARLアルゴリズムの多くはモデルフリーであり、サンプル効率を制限し、より困難なシナリオでの適用を妨げている。
政策探索のための集中型モデルとモンテカルロ木探索(MCTS)を組み合わせたMAZeroアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-20T04:36:02Z) - Unsupervised Solution Operator Learning for Mean-Field Games via Sampling-Invariant Parametrizations [7.230928145936957]
我々はMFGソリューション演算子を学習するための新しいフレームワークを開発する。
我々のモデルはMFGインスタンスを入力として取り出し、1つのフォワードパスで解を出力する。
離散化フリーであり、高次元MFGの学習演算子に適している。
論文 参考訳(メタデータ) (2024-01-27T19:07:49Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Defending Against Poisoning Attacks in Federated Learning with
Blockchain [12.840821573271999]
ブロックチェーンと分散台帳技術に基づくセキュアで信頼性の高いフェデレーション学習システムを提案する。
本システムでは,オンチェーン型スマートコントラクトを利用したピアツーピア投票機構と報酬アンドスラッシュ機構を組み込んで,悪意ある行動の検出と検出を行う。
論文 参考訳(メタデータ) (2023-07-02T11:23:33Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文 参考訳(メタデータ) (2021-12-30T19:21:03Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。