論文の概要: Breaking the Performance Ceiling in Complex Reinforcement Learning requires Inference Strategies
- arxiv url: http://arxiv.org/abs/2505.21236v1
- Date: Tue, 27 May 2025 14:19:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.712695
- Title: Breaking the Performance Ceiling in Complex Reinforcement Learning requires Inference Strategies
- Title(参考訳): 複雑な強化学習におけるパフォーマンスシーリングを破るには推論戦略が必要である
- Authors: Felix Chalumeau, Daniel Rajaonarivonivelomanantsoa, Ruan de Kock, Claude Formanek, Sasha Abramowitz, Oumayma Mahjoub, Wiem Khlifi, Simon Du Toit, Louay Ben Nessir, Refiloe Shabe, Arnol Fokam, Siddarth Singh, Ulrich Mbou Sob, Arnu Pretorius,
- Abstract要約: 複雑なマルチエージェントRL問題で観測される性能天井を壊すためには,実行時に使用される推論フェーズとそれに対応する推論戦略を選択することが重要である。
これまでの17のタスクに対して最大126%の改善を達成できます。
- 参考スコア(独自算出の注目度): 3.2151917806015184
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) systems have countless applications, from energy-grid management to protein design. However, such real-world scenarios are often extremely difficult, combinatorial in nature, and require complex coordination between multiple agents. This level of complexity can cause even state-of-the-art RL systems, trained until convergence, to hit a performance ceiling which they are unable to break out of with zero-shot inference. Meanwhile, many digital or simulation-based applications allow for an inference phase that utilises a specific time and compute budget to explore multiple attempts before outputting a final solution. In this work, we show that such an inference phase employed at execution time, and the choice of a corresponding inference strategy, are key to breaking the performance ceiling observed in complex multi-agent RL problems. Our main result is striking: we can obtain up to a 126% and, on average, a 45% improvement over the previous state-of-the-art across 17 tasks, using only a couple seconds of extra wall-clock time during execution. We also demonstrate promising compute scaling properties, supported by over 60k experiments, making it the largest study on inference strategies for complex RL to date. Our experimental data and code are available at https://sites.google.com/view/inf-marl.
- Abstract(参考訳): 強化学習(RL)システムには、エネルギーグリッド管理からタンパク質設計まで、無数の応用がある。
しかし、そのような現実世界のシナリオは、本質的には極めて困難であり、複数のエージェント間の複雑な調整を必要とする。
このレベルの複雑さは、収束するまで訓練された最先端のRLシステムでさえ、ゼロショット推論でブレークアウトできないパフォーマンス天井にぶつかる可能性がある。
一方、多くのデジタルまたはシミュレーションベースのアプリケーションは、最終的なソリューションを出力する前に複数の試行を探索するために特定の時間と計算予算を利用する推論フェーズを可能にする。
本研究では, 複雑なマルチエージェントRL問題において観測される性能天井を破る上で, 実行時に発生するそのような推論フェーズと, 対応する推論戦略の選択が重要であることを示す。
一番の成果は、最大で126%、平均して17のタスクにわたる前回の最先端よりも45%改善できます。
また,60k以上の実験で支持された有望なスケーリング特性を実証し,複雑なRLの推論戦略についてはこれまでで最大の研究を行った。
実験データとコードはhttps://sites.google.com/view/inf-marl.comで公開しています。
関連論文リスト
- Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。
我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。
我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文 参考訳(メタデータ) (2025-02-11T02:31:11Z) - Transform then Explore: a Simple and Effective Technique for Exploratory Combinatorial Optimization with Reinforcement Learning [11.531786269804707]
グラフ上の最適化問題(COP)を解決するためのゲージ変換(GT)手法を提案する。
GTは非常にシンプルで、10行未満のPythonコードで実装でき、ほとんどの強化学習モデルに適用できる。
GTを用いた従来のRLモデルでは,MaxCut問題に対して最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-04-06T15:31:17Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - FNAS: Uncertainty-Aware Fast Neural Architecture Search [54.49650267859032]
強化学習(Reinforcement Learning, RL)に基づくニューラルアーキテクチャサーチ(NAS)は一般的に、収束性の向上を保証するが、巨大な計算資源の要求に悩まされる。
NASにおけるロールアウトプロセスとRLプロセスの収束を加速する汎用パイプラインを提案する。
Mobile Neural Architecture Search (MNAS)サーチスペースの実験では、提案するFast Neural Architecture Search (FNAS)が標準のRLベースのNASプロセスを10倍高速化することを示した。
論文 参考訳(メタデータ) (2021-05-25T06:32:52Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。