Fugu-MT 論文翻訳(概要): Reduce, Reuse, Recycle: Selective Reincarnation in Multi-Agent Reinforcement Learning

論文の概要: Reduce, Reuse, Recycle: Selective Reincarnation in Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2304.00977v1
Date: Fri, 31 Mar 2023 07:58:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-04 15:23:27.245406
Title: Reduce, Reuse, Recycle: Selective Reincarnation in Multi-Agent Reinforcement Learning
Title（参考訳）: 減量・再利用・リサイクル:マルチエージェント強化学習における選択的再実現
Authors: Claude Formanek, Callum Rhys Tilbury, Jonathan Shock, Kale-ab Tessera, Arnu Pretorius
Abstract要約: 強化学習における「再教育」は、エージェントを訓練する際の過去の実験から以前の計算を再利用する形式化として提案されている。我々は、一部のエージェントだけが再核化されるのに対し、他のエージェントはスクラッチから訓練され、選択的な再核化が行われるケースを考えます。
参考スコア（独自算出の注目度）: 3.0320543841863503
License: http://creativecommons.org/licenses/by/4.0/
Abstract: 'Reincarnation' in reinforcement learning has been proposed as a formalisation of reusing prior computation from past experiments when training an agent in an environment. In this paper, we present a brief foray into the paradigm of reincarnation in the multi-agent (MA) context. We consider the case where only some agents are reincarnated, whereas the others are trained from scratch -- selective reincarnation. In the fully-cooperative MA setting with heterogeneous agents, we demonstrate that selective reincarnation can lead to higher returns than training fully from scratch, and faster convergence than training with full reincarnation. However, the choice of which agents to reincarnate in a heterogeneous system is vitally important to the outcome of the training -- in fact, a poor choice can lead to considerably worse results than the alternatives. We argue that a rich field of work exists here, and we hope that our effort catalyses further energy in bringing the topic of reincarnation to the multi-agent realm.
Abstract（参考訳）: 強化学習における「リカーネーション」は, エージェントの環境訓練における過去の実験からの事前計算の再利用の形式化として提案されている。本稿では,マルチエージェント(ma)コンテキストにおける再編成のパラダイムについて概説する。我々は、一部のエージェントのみがリカーネーションされる場合と、他のエージェントがスクラッチからトレーニングされる場合、選択的なリカーネーションを考える。完全協力型ma設定では,選択的な再編成はスクラッチから完全にトレーニングするよりもリターンが高く,完全再編成でのトレーニングよりもコンバージェンスが速いことを実証した。しかし、不均一なシステムで再生するエージェントの選択は、トレーニングの結果にとって極めて重要である。我々は、豊かな研究分野がここに存在し、我々の努力が、マルチエージェントの領域に再編成の話題をもたらす上で、さらなるエネルギーを触媒することを期待している。

関連論文リスト

Memento No More: Coaching AI Agents to Master Multiple Tasks via Hints Internalization [56.674356045200696]
本稿では,複雑なメモシステムや事前の高品質な実演データを必要としない,複数のタスクに対する知識とスキルを取り入れたAIエージェントの訓練手法を提案する。このアプローチでは,エージェントが新たな経験を収集し,ヒントの形で人間から補正フィードバックを受け取り,このフィードバックを重みに組み込む,反復的なプロセスを採用している。 Llama-3 をベースとしたエージェントに実装することで,提案手法の有効性を実証し,数ラウンドのフィードバックの後,高度なモデル GPT-4o と DeepSeek-V3 をタスクセットで向上させる。
論文参考訳（メタデータ） (2025-02-03T17:45:46Z)
Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文参考訳（メタデータ） (2024-10-23T17:59:52Z)
Reset It and Forget It: Relearning Last-Layer Weights Improves Continual and Transfer Learning [2.270857464465579]
この研究は、継続学習と転帰学習をより良く示す表現につながる単純な事前学習メカニズムを特定する。最後の層における重みの繰り返しのリセットは、私たちが「ザッピング」と呼ぶもので、元々はメタコンチネンタル・ラーニング(メタコンチネンタル・ラーニング)の手順のために設計されていた。メタラーニングと継続学習の両以上の多くの環境で驚くほど適用可能であることを示す。
論文参考訳（メタデータ） (2023-10-12T02:52:14Z)
ReFIT: Relevance Feedback from a Reranker during Inference [109.33278799999582]
Retrieve-and-Rerankは、ニューラル情報検索の一般的なフレームワークである。本稿では,リランカを利用してリコールを改善する手法を提案する。
論文参考訳（メタデータ） (2023-05-19T15:30:33Z)
Beyond Tabula Rasa: Reincarnating Reinforcement Learning [37.201451908129386]
タブララ・ラサの学習は、事前の知識がなければ、強化学習(RL)研究における一般的なワークフローである。我々は、RLエージェントの設計イテレーション間で事前の計算作業を再利用または転送するワークフローとして、RLを再導入する。既存のアプローチはこの設定で失敗し、それらの制限に対処するための単純なアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-06-03T15:11:10Z)
ELECRec: Training Sequential Recommenders as Discriminators [94.93227906678285]
シーケンシャルレコメンデーションは、しばしば生成タスク、すなわち、ユーザの関心事の次の項目を生成するためにシーケンシャルエンコーダを訓練すると考えられる。我々は、ジェネレータではなく、識別器としてシーケンシャルレコメンデータを訓練することを提案する。本手法は,サンプル項目が「現実の」対象項目であるか否かを識別するために識別器を訓練する。
論文参考訳（メタデータ） (2022-04-05T06:19:45Z)
RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking [89.82301733609279]
本稿では,高密度経路検索と再ランク付けのための新しい共同学習手法を提案する。主な貢献は、動的リストワイズ蒸留を導入し、レトリバーと再ランカの両方に統一されたリストワイズトレーニングアプローチを設計することである。ダイナミック蒸留中は、レトリバーとリランカは、互いの関連情報に応じて適応的に改善することができる。
論文参考訳（メタデータ） (2021-10-14T13:52:55Z)
Replay-Guided Adversarial Environment Design [21.305857977725886]
完全にランダムなレベルを計算することで、PLRは効果的なトレーニングのために、新しく複雑なレベルを生成することができる、と我々は主張する。我々は,新しい手法である PLR$perp$ が,アウト・オブ・ディストリビューション,ゼロショット転送タスクのスイートにおいて,より良い結果が得られることを示す。
論文参考訳（メタデータ） (2021-10-06T01:01:39Z)
Self-Replicating Neural Programs [0.0]
この作業では、ニューラルネットワークは、自身の出力のみを入力として使用してトレーニングするコードを複製するように訓練される。神経プログラムにおける進化的自己複製のパラダイムでは、プログラムパラメータが変更され、プログラム自体をより効率的に訓練する能力が生殖の成功に繋がる。
論文参考訳（メタデータ） (2021-09-27T04:08:23Z)
Offline-to-Online Reinforcement Learning via Balanced Replay and Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文参考訳（メタデータ） (2021-07-01T16:26:54Z)
Exploring the Impact of Tunable Agents in Sequential Social Dilemmas [0.0]
我々は多目的強化学習を活用して調整可能なエージェントを作成する。この手法を逐次社会的ジレンマに適用する。調整可能なエージェント・フレームワークは協調行動と競争行動の容易な適応を可能にすることを実証する。
論文参考訳（メタデータ） (2021-01-28T12:44:31Z)
Automatic Recall Machines: Internal Replay, Continual Learning and the Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文参考訳（メタデータ） (2020-06-22T15:07:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。