論文の概要: Reduce, Reuse, Recycle: Selective Reincarnation in Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.00977v1
- Date: Fri, 31 Mar 2023 07:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 15:23:27.245406
- Title: Reduce, Reuse, Recycle: Selective Reincarnation in Multi-Agent
Reinforcement Learning
- Title(参考訳): 減量・再利用・リサイクル:マルチエージェント強化学習における選択的再実現
- Authors: Claude Formanek, Callum Rhys Tilbury, Jonathan Shock, Kale-ab Tessera,
Arnu Pretorius
- Abstract要約: 強化学習における「再教育」は、エージェントを訓練する際の過去の実験から以前の計算を再利用する形式化として提案されている。
我々は、一部のエージェントだけが再核化されるのに対し、他のエージェントはスクラッチから訓練され、選択的な再核化が行われるケースを考えます。
- 参考スコア(独自算出の注目度): 3.0320543841863503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 'Reincarnation' in reinforcement learning has been proposed as a
formalisation of reusing prior computation from past experiments when training
an agent in an environment. In this paper, we present a brief foray into the
paradigm of reincarnation in the multi-agent (MA) context. We consider the case
where only some agents are reincarnated, whereas the others are trained from
scratch -- selective reincarnation. In the fully-cooperative MA setting with
heterogeneous agents, we demonstrate that selective reincarnation can lead to
higher returns than training fully from scratch, and faster convergence than
training with full reincarnation. However, the choice of which agents to
reincarnate in a heterogeneous system is vitally important to the outcome of
the training -- in fact, a poor choice can lead to considerably worse results
than the alternatives. We argue that a rich field of work exists here, and we
hope that our effort catalyses further energy in bringing the topic of
reincarnation to the multi-agent realm.
- Abstract(参考訳): 強化学習における「リカーネーション」は, エージェントの環境訓練における過去の実験からの事前計算の再利用の形式化として提案されている。
本稿では,マルチエージェント(ma)コンテキストにおける再編成のパラダイムについて概説する。
我々は、一部のエージェントのみがリカーネーションされる場合と、他のエージェントがスクラッチからトレーニングされる場合、選択的なリカーネーションを考える。
完全協力型ma設定では,選択的な再編成はスクラッチから完全にトレーニングするよりもリターンが高く,完全再編成でのトレーニングよりもコンバージェンスが速いことを実証した。
しかし、不均一なシステムで再生するエージェントの選択は、トレーニングの結果にとって極めて重要である。
我々は、豊かな研究分野がここに存在し、我々の努力が、マルチエージェントの領域に再編成の話題をもたらす上で、さらなるエネルギーを触媒することを期待している。
関連論文リスト
- Reset It and Forget It: Relearning Last-Layer Weights Improves Continual
and Transfer Learning [2.4807486426407044]
この研究は、継続学習と転帰学習をより良く示す表現につながる単純な事前学習メカニズムを特定する。
最後の層における重みの繰り返しのリセットは、私たちが「ザッピング」と呼ぶもので、元々はメタコンチネンタル・ラーニング(メタコンチネンタル・ラーニング)の手順のために設計されていた。
メタラーニングと継続学習の両以上の多くの環境で驚くほど適用可能であることを示す。
論文 参考訳(メタデータ) (2023-10-12T02:52:14Z) - Inference-time Re-ranker Relevance Feedback for Neural Information
Retrieval [84.20748790986131]
検索と参照のフレームワークは、まずK(例えば100)候補を検索し、次により強力なクロスエンコーダモデルを使って上位の候補をランク付けする。
リランカは一般的に、レトリバーよりも優れた候補スコアを生成するが、トップKのみの検索に限られる。
本研究では、リランカを活用して、推論時間関連性フィードバックを検索者に提供することにより、検索を改善する。
論文 参考訳(メタデータ) (2023-05-19T15:30:33Z) - ReDi: Efficient Learning-Free Diffusion Inference via Trajectory
Retrieval [68.7008281316644]
ReDiは学習不要なRetrievalベースの拡散サンプリングフレームワークである。
ReDi はモデル推論効率を 2 倍高速化することを示した。
論文 参考訳(メタデータ) (2023-02-05T03:01:28Z) - Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。
我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。
既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-03T15:11:10Z) - ELECRec: Training Sequential Recommenders as Discriminators [94.93227906678285]
シーケンシャルレコメンデーションは、しばしば生成タスク、すなわち、ユーザの関心事の次の項目を生成するためにシーケンシャルエンコーダを訓練すると考えられる。
我々は、ジェネレータではなく、識別器としてシーケンシャルレコメンデータを訓練することを提案する。
本手法は,サンプル項目が「現実の」対象項目であるか否かを識別するために識別器を訓練する。
論文 参考訳(メタデータ) (2022-04-05T06:19:45Z) - Self-Replicating Neural Programs [0.0]
この作業では、ニューラルネットワークは、自身の出力のみを入力として使用してトレーニングするコードを複製するように訓練される。
神経プログラムにおける進化的自己複製のパラダイムでは、プログラムパラメータが変更され、プログラム自体をより効率的に訓練する能力が生殖の成功に繋がる。
論文 参考訳(メタデータ) (2021-09-27T04:08:23Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Knowledge-Adaptation Priors [24.0459093025458]
人間や動物は自然に環境に適応する能力を持っているが、機械学習モデルは変化を受けると、スクラッチから完全に再訓練する必要があることが多い。
我々は,多種多様なタスクやモデルに対して,迅速かつ正確な適応を可能にすることにより,再訓練のコストを削減するために,知識適応事前(K-priors)を提案する。
論文 参考訳(メタデータ) (2021-06-16T13:27:22Z) - Exploring the Impact of Tunable Agents in Sequential Social Dilemmas [0.0]
我々は多目的強化学習を活用して調整可能なエージェントを作成する。
この手法を逐次社会的ジレンマに適用する。
調整可能なエージェント・フレームワークは協調行動と競争行動の容易な適応を可能にすることを実証する。
論文 参考訳(メタデータ) (2021-01-28T12:44:31Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。