Fugu-MT 論文翻訳(概要): Self-Paced Multi-Agent Reinforcement Learning

論文の概要: Self-Paced Multi-Agent Reinforcement Learning

arxiv url: http://arxiv.org/abs/2205.10016v1
Date: Fri, 20 May 2022 08:16:30 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-23 14:31:48.517880
Title: Self-Paced Multi-Agent Reinforcement Learning
Title（参考訳）: 自己ペースマルチエージェント強化学習
Authors: Wenshuai Zhao, Joni Pajarinen
Abstract要約: 我々は, エージェント数と他の環境要因を原則的に最適化できるセルフパッチMARL(SPMARL)を導入する。 SPMARLによって引き起こされたカリキュラムは、エージェントの数や実験によってタスクの進化が明らかとなり、エージェントの数がタスクの難易度に十分な影響を及ぼす場合、SPMARLはパフォーマンスを改善する。
参考スコア（独自算出の注目度）: 6.9788071083683585
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Curriculum reinforcement learning (CRL) aims to speed up learning of a task by changing gradually the difficulty of the task from easy to hard through control of factors such as initial state or environment dynamics. While automating CRL is well studied in the single-agent setting, in multi-agent reinforcement learning (MARL) an open question is whether control of the number of agents with other factors in a principled manner is beneficial, prior approaches typically relying on hand-crafted heuristics. In addition, how the tasks evolve as the number of agents changes remains understudied, which is critical for scaling to more challenging tasks. We introduce self-paced MARL (SPMARL) that enables optimizing the number of agents with other environment factors in a principled way, and, show that usual assumptions such as that fewer agents make the task always easier are not generally valid. The curriculum induced by SPMARL reveals the evolution of tasks w.r.t. number of agents and experiments show that SPMARL improves the performance when the number of agents sufficiently influences task difficulty.
Abstract（参考訳）: CRL(Curriculum reinforcement learning)は、初期状態や環境力学などの要因の制御を通じて、タスクの難易度を徐々に変化させることにより、タスクの学習を高速化することを目的とする。 crlの自動化は単一エージェント設定でよく研究されているが、マルチエージェント強化学習(marl)では、原則的に他の要因によるエージェントの数の制御が有効であるかどうかという疑問がある。さらに、エージェントの数の変化に伴ってタスクがどのように進化するかについては、まだ検討されていない。本稿では, エージェントの数を他の環境要因に最適化できるセルフペース型MARL(SPMARL)を導入し, エージェントの数を減らしてタスクを楽にするといった通常の仮定が一般的に有効でないことを示す。 SPMARLによって引き起こされたカリキュラムは、エージェントの数や実験によってタスクの進化を明らかにしており、エージェントの数がタスクの難易度に十分な影響を及ぼす場合、SPMARLはパフォーマンスを改善する。

関連論文リスト

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。 E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文参考訳（メタデータ） (2025-06-07T02:41:54Z)
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。 LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文参考訳（メタデータ） (2025-03-19T17:55:08Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Guiding Through Complexity: What Makes Good Supervision for Hard Math Reasoning Tasks? [74.88417042125985]
複雑さの異なるタスクにおいて、様々な品質レベルで監視データを提供する様々なデータ駆動戦略について検討する。ハードタスクの監視における結果エラー率が高い場合でも、そのようなデータによるトレーニングは、より簡単なサブタスクの監督を完璧に上回ります。また,本研究の結果から,タスク・インスペクションとサブタスク・インスペクションを補完することで,顕著なパフォーマンス向上が期待できることがわかった。
論文参考訳（メタデータ） (2024-10-27T17:55:27Z)
Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。 CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文参考訳（メタデータ） (2024-07-10T16:04:08Z)
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-02-29T18:45:56Z)
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文参考訳（メタデータ） (2024-01-07T18:12:20Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。 RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文参考訳（メタデータ） (2023-06-28T04:16:16Z)
Semantically Aligned Task Decomposition in Multi-Agent Reinforcement Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。 SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。 SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文参考訳（メタデータ） (2023-05-18T10:37:54Z)
Towards Skilled Population Curriculum for Multi-Agent Reinforcement Learning [42.540853953923495]
我々は,カリキュラム学習をマルチエージェント協調に適応させる新しいカリキュラム学習フレームワーク,SPC(Skilled Population Curriculum)を導入する。具体的には,集団不変のコミュニケーションと階層的スキルセットを学生に提供し,異なるタスクからさまざまなエージェントで協調と行動スキルを学習できるようにする。また、このマルチエージェント自動カリキュラム教育問題の本質的非定常性を解析し、それに対応する後悔境界を提供する。
論文参考訳（メタデータ） (2023-02-07T12:30:52Z)
Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。本研究では, MRL の頑健な目標を制御レベルで定義する。ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文参考訳（メタデータ） (2023-01-26T14:54:39Z)
Meta-Learning with Less Forgetting on Large-Scale Non-Stationary Task Distributions [8.88133567816717]
この問題をSETSと略記したEvolving Task diStributionsを用いた半教師付きメタラーニングと呼ぶ。 OOD Robust and knowleDge presErved semi-supeRvised meta-learning approach (ORDER)を提案する。具体的には、ORDERは、未ラベルのOODデータでモデルを堅牢化するための新しい相互情報正規化を導入し、特徴空間における以前に学習された知識を記憶するために最適なトランスポート正規化を採用する。
論文参考訳（メタデータ） (2022-09-03T21:22:14Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Variational Automatic Curriculum Learning for Sparse-Reward Cooperative Multi-Agent Problems [42.973910399533054]
協調型マルチエージェント強化学習の課題を解決するために,カリキュラム学習アルゴリズムである変分自動カリキュラム学習(VACL)を導入する。 VACLアルゴリズムはこの変分パラダイムを,タスク拡張とエンティティ進行という2つの実践的要素で実現している。実験の結果,VACLはスパース・リワード問題の集合を多数のエージェントで解くことがわかった。
論文参考訳（メタデータ） (2021-11-08T16:35:08Z)
URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。 URLBは2つのフェーズで構成されている。評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文参考訳（メタデータ） (2021-10-28T15:07:01Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
Cross-Trajectory Representation Learning for Zero-Shot Generalization in RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文参考訳（メタデータ） (2021-06-04T00:43:10Z)
Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文参考訳（メタデータ） (2021-03-04T18:44:03Z)
Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2～5倍高いポリシを学習しています。理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文参考訳（メタデータ） (2020-06-08T17:53:42Z)
Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文参考訳（メタデータ） (2020-04-24T15:48:07Z)
Trying AGAIN instead of Trying Longer: Prior Learning for Automatic Curriculum Learning [39.489869446313065]
Deep RL(DRL)コミュニティにおける大きな課題は、見えない状況に対して汎用的なエージェントを訓練することである。そこで本研究では,(1)教師アルゴリズムがDRLエージェントを高探索カリキュラムで学習し,(2)初回から学習した前処理を蒸留して「専門カリキュラム」を生成する2段階のACLアプローチを提案する。本研究の目的は,最先端技術に対する平均50%の改善を示すことに加えて,複数の学習者を対象としたACL技術の改良を指向した新たな研究方向性の第一の例を示すことである。
論文参考訳（メタデータ） (2020-04-07T07:30:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。