論文の概要: Selective Reincarnation: Offline-to-Online Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.00977v2
- Date: Wed, 30 Oct 2024 12:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:23:57.355574
- Title: Selective Reincarnation: Offline-to-Online Multi-Agent Reinforcement Learning
- Title(参考訳): Selective Reincarnation: Offline-to-Online Multi-Agent Reinforcement Learning
- Authors: Claude Formanek, Callum Rhys Tilbury, Jonathan Shock, Kale-ab Tessera, Arnu Pretorius,
- Abstract要約: 強化学習における「再教育」は、エージェントを訓練する際の過去の実験から以前の計算を再利用する形式化として提案されている。
我々は、一部のエージェントだけが再核化されるのに対し、他のエージェントはスクラッチから訓練され、選択的な再核化が行われるケースを考えます。
- 参考スコア(独自算出の注目度): 3.5490824406092405
- License:
- Abstract: 'Reincarnation' in reinforcement learning has been proposed as a formalisation of reusing prior computation from past experiments when training an agent in an environment. In this paper, we present a brief foray into the paradigm of reincarnation in the multi-agent (MA) context. We consider the case where only some agents are reincarnated, whereas the others are trained from scratch -- selective reincarnation. In the fully-cooperative MA setting with heterogeneous agents, we demonstrate that selective reincarnation can lead to higher returns than training fully from scratch, and faster convergence than training with full reincarnation. However, the choice of which agents to reincarnate in a heterogeneous system is vitally important to the outcome of the training -- in fact, a poor choice can lead to considerably worse results than the alternatives. We argue that a rich field of work exists here, and we hope that our effort catalyses further energy in bringing the topic of reincarnation to the multi-agent realm.
- Abstract(参考訳): 強化学習における「リカーネーション」は, エージェントを訓練する際の過去の実験から, 事前計算を再利用する形式化として提案されている。
本稿では,マルチエージェント (MA) の文脈における再生のパラダイムを概説する。
我々は、一部のエージェントだけが再核化されるのに対し、他のエージェントはスクラッチから訓練され、選択的な再核化が行われる場合を考えます。
異種薬物を用いた完全協調型MAでは, 選択的再カーネーションはスクラッチからのトレーニングよりも高いリターン, 完全再カーネーションによるトレーニングよりも高速なコンバージェンスをもたらすことが示された。
しかし、不均一なシステムで再生するエージェントの選択は、トレーニングの結果にとって極めて重要である。
我々は、ここでは豊富な仕事の分野が存在しており、我々は、多エージェント領域に再生まれというトピックをもたらすために、我々の努力がさらなるエネルギーを触媒することを期待している。
関連論文リスト
- Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文 参考訳(メタデータ) (2024-10-23T17:59:52Z) - Reset It and Forget It: Relearning Last-Layer Weights Improves Continual and Transfer Learning [2.270857464465579]
この研究は、継続学習と転帰学習をより良く示す表現につながる単純な事前学習メカニズムを特定する。
最後の層における重みの繰り返しのリセットは、私たちが「ザッピング」と呼ぶもので、元々はメタコンチネンタル・ラーニング(メタコンチネンタル・ラーニング)の手順のために設計されていた。
メタラーニングと継続学習の両以上の多くの環境で驚くほど適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-12T02:52:14Z) - ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。
本稿では,リランカを利用してリコールを改善する手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - ELECRec: Training Sequential Recommenders as Discriminators [94.93227906678285]
シーケンシャルレコメンデーションは、しばしば生成タスク、すなわち、ユーザの関心事の次の項目を生成するためにシーケンシャルエンコーダを訓練すると考えられる。
我々は、ジェネレータではなく、識別器としてシーケンシャルレコメンデータを訓練することを提案する。
本手法は,サンプル項目が「現実の」対象項目であるか否かを識別するために識別器を訓練する。
論文 参考訳(メタデータ) (2022-04-05T06:19:45Z) - RocketQAv2: A Joint Training Method for Dense Passage Retrieval and
Passage Re-ranking [89.82301733609279]
本稿では,高密度経路検索と再ランク付けのための新しい共同学習手法を提案する。
主な貢献は、動的リストワイズ蒸留を導入し、レトリバーと再ランカの両方に統一されたリストワイズトレーニングアプローチを設計することである。
ダイナミック蒸留中は、レトリバーとリランカは、互いの関連情報に応じて適応的に改善することができる。
論文 参考訳(メタデータ) (2021-10-14T13:52:55Z) - Replay-Guided Adversarial Environment Design [21.305857977725886]
完全にランダムなレベルを計算することで、PLRは効果的なトレーニングのために、新しく複雑なレベルを生成することができる、と我々は主張する。
我々は,新しい手法である PLR$perp$ が,アウト・オブ・ディストリビューション,ゼロショット転送タスクのスイートにおいて,より良い結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T01:01:39Z) - Self-Replicating Neural Programs [0.0]
この作業では、ニューラルネットワークは、自身の出力のみを入力として使用してトレーニングするコードを複製するように訓練される。
神経プログラムにおける進化的自己複製のパラダイムでは、プログラムパラメータが変更され、プログラム自体をより効率的に訓練する能力が生殖の成功に繋がる。
論文 参考訳(メタデータ) (2021-09-27T04:08:23Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Exploring the Impact of Tunable Agents in Sequential Social Dilemmas [0.0]
我々は多目的強化学習を活用して調整可能なエージェントを作成する。
この手法を逐次社会的ジレンマに適用する。
調整可能なエージェント・フレームワークは協調行動と競争行動の容易な適応を可能にすることを実証する。
論文 参考訳(メタデータ) (2021-01-28T12:44:31Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。