Fugu-MT 論文翻訳(概要): Gradient Boosting Reinforcement Learning

論文の概要: Gradient Boosting Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.08250v1
Date: Thu, 11 Jul 2024 07:52:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-12 18:29:17.047972
Title: Gradient Boosting Reinforcement Learning
Title（参考訳）: グラディエント強化強化学習
Authors: Benjamin Fuhrer, Chen Tessler, Gal Dalal,
Abstract要約: GBTの利点を強化学習領域に拡張するフレームワークであるGradient-Boosting RL(GBRL)を紹介する。 GBRLは、さまざまなタスクにまたがる競争的なパフォーマンスを実現し、構造的または分類的な特徴を持つドメインで優れている。本稿では,広く使用されているRLライブラリとシームレスに統合したGPU高速化実装を提案する。
参考スコア（独自算出の注目度）: 9.66275447955737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural networks (NN) achieve remarkable results in various tasks, but lack key characteristics: interpretability, support for categorical features, and lightweight implementations suitable for edge devices. While ongoing efforts aim to address these challenges, Gradient Boosting Trees (GBT) inherently meet these requirements. As a result, GBTs have become the go-to method for supervised learning tasks in many real-world applications and competitions. However, their application in online learning scenarios, notably in reinforcement learning (RL), has been limited. In this work, we bridge this gap by introducing Gradient-Boosting RL (GBRL), a framework that extends the advantages of GBT to the RL domain. Using the GBRL framework, we implement various actor-critic algorithms and compare their performance with their NN counterparts. Inspired by shared backbones in NN we introduce a tree-sharing approach for policy and value functions with distinct learning rates, enhancing learning efficiency over millions of interactions. GBRL achieves competitive performance across a diverse array of tasks, excelling in domains with structured or categorical features. Additionally, we present a high-performance, GPU-accelerated implementation that integrates seamlessly with widely-used RL libraries (available at https://github.com/NVlabs/gbrl). GBRL expands the toolkit for RL practitioners, demonstrating the viability and promise of GBT within the RL paradigm, particularly in domains characterized by structured or categorical features.
Abstract（参考訳）: ニューラルネットワーク(NN)は、様々なタスクにおいて顕著な結果をもたらすが、解釈可能性、カテゴリ機能のサポート、エッジデバイスに適した軽量実装といった重要な特徴を欠いている。進行中の取り組みはこれらの課題に対処することを目的としているが、Gradient Boosting Trees (GBT) は本質的にこれらの要件を満たしている。その結果、GBTは現実世界の多くのアプリケーションやコンペティションにおいて、教師付き学習タスクのゴーツーメソッドとなっている。しかし、オンライン学習のシナリオ、特に強化学習(RL)における応用は限られている。本稿では、GBTの利点をRLドメインに拡張するフレームワークであるGBRL(Gradient-Boosting RL)を導入することにより、このギャップを埋める。 GBRLフレームワークを用いて,様々なアクター批判アルゴリズムを実装し,その性能をNNと比較する。 NNの共有バックボーンにインスパイアされた我々は、異なる学習率を持つポリシーと価値関数のためのツリー共有アプローチを導入し、数百万のインタラクションに対する学習効率を向上する。 GBRLは、さまざまなタスクにまたがる競争的なパフォーマンスを実現し、構造的または分類的な特徴を持つドメインで優れている。また、広く使われているRLライブラリ(https://github.com/NVlabs/gbrl)とシームレスに統合する高速GPU高速化実装を提案する。 GBRLは、RL実践者のためのツールキットを拡張し、特に構造的または分類的特徴を特徴とする領域において、RLパラダイムにおけるGBTの生存可能性と将来性を示す。

関連論文リスト

Towards Improving Long-Tail Entity Predictions in Temporal Knowledge Graphs through Global Similarity and Weighted Sampling [53.11315884128402]
時間知識グラフ(TKG)補完モデルは、伝統的にトレーニング中にグラフ全体へのアクセスを前提としている。本稿では,TKGに特化して設計されたインクリメンタルトレーニングフレームワークを提案する。提案手法は,モデルに依存しない拡張層と加重サンプリング戦略を組み合わせることで,既存のTKG補完手法を拡張および改善することができる。
論文参考訳（メタデータ） (2025-07-25T06:02:48Z)
Comparing Behavioural Cloning and Reinforcement Learning for Spacecraft Guidance and Control Networks [4.868863044142366]
誘導制御ネットワーク(G&CNET)は、宇宙船の誘導制御(G&C)アーキテクチャに代わる有望な代替手段を提供する。 G&CNETのトレーニングでは、最適な軌道を模倣する行動クローニング(BC)と、試行錯誤を通じて最適な行動を学ぶ強化学習(RL)の2つの主要なパラダイムが出現する。我々は、連続スラスト宇宙船軌道最適化タスクにおいて、特にG&CNETを訓練するために、BCとRLを体系的に評価する。我々は、G&CNETに適した新しいRLトレーニングフレームワークを導入し、報酬とともに分離されたアクションと制御周波数を取り入れた。
論文参考訳（メタデータ） (2025-07-22T07:43:38Z)
Leveraging Genetic Algorithms for Efficient Demonstration Generation in Real-World Reinforcement Learning Environments [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、特定の実世界の産業応用において大きな可能性を証明している。本研究では,遺伝的アルゴリズム(GA)をRL性能向上のメカニズムとして活用することを検討した。本稿では,GAによる専門家による実証実験を政策学習の強化に活用する手法を提案する。
論文参考訳（メタデータ） (2025-07-01T14:04:17Z)
SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning [42.54530036364341]
SuperRLは、オフライン監視を強化学習に適応的に組み込む統合トレーニングフレームワークである。 SuperRLは、スパース報酬の下でサンプル効率、一般化、堅牢性を向上させることで、標準強化学習を一貫して上回る。
論文参考訳（メタデータ） (2025-06-01T17:43:54Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
Broad Critic Deep Actor Reinforcement Learning for Continuous Control [4.979815588384994]
新しいハイブリッドアクター・クリティック強化学習(RL)フレームワークが導入された。提案するフレームワークは,広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合する。このハイブリッド設計は一般化可能であり、既存のアクター批判アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2024-11-24T12:24:46Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning [17.236861687708096]
連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。
論文参考訳（メタデータ） (2024-04-28T12:25:09Z)
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文参考訳（メタデータ） (2024-03-06T18:55:47Z)
SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-11-03T16:19:33Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Uncovering the Structural Fairness in Graph Contrastive Learning [87.65091052291544]
グラフコントラスト学習(GCL)は、ノード表現を学習するための有望な自己教師型アプローチとして登場した。 GCL法で得られた表現は,GCN法で学習した表現よりも既に公平であることを示す。我々は、低次ノードと高次ノードに異なる戦略を適用し、GRAph contrastive learning for Degree bias (GRADE)と呼ばれるグラフ拡張手法を考案した。
論文参考訳（メタデータ） (2022-10-06T15:58:25Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。 PBTスタイルの手法に2つの新しい革新を導入する。これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文参考訳（メタデータ） (2022-07-19T16:57:38Z)
Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters [35.17151863463472]
オフライン強化学習(RL)における悲観主義の根源として、Q$関数のアンサンブルをどのように活用できるかを、再検討する。我々は、完全に独立したネットワークに基づいて、独立に計算されたターゲットと$Q$関数のアンサンブルを訓練する実用的なオフラインRLアルゴリズムMSGを提案する。 D4RL と RL Unplugged のオフライン RL ベンチマーク実験により,深いアンサンブルを持つMSG が高度に調整された最先端の手法を広いマージンで超えることを示した。
論文参考訳（メタデータ） (2022-05-27T01:30:12Z)
Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文参考訳（メタデータ） (2022-02-09T15:01:59Z)
Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文参考訳（メタデータ） (2021-12-31T18:10:02Z)
Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文参考訳（メタデータ） (2021-09-29T00:50:00Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
Improving Generalization in Reinforcement Learning with Mixture Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。 Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文参考訳（メタデータ） (2020-10-21T08:12:03Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。