Fugu-MT 論文翻訳(概要): Gradient Boosting Reinforcement Learning

論文の概要: Gradient Boosting Reinforcement Learning

arxiv url: http://arxiv.org/abs/2407.08250v2
Date: Wed, 28 May 2025 09:10:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-29 17:35:49.9968
Title: Gradient Boosting Reinforcement Learning
Title（参考訳）: グラディエント強化強化学習
Authors: Benjamin Fuhrer, Chen Tessler, Gal Dalal,
Abstract要約: Gradient Boosting Reinforcement Learning (GBRL) は、勾配強化木(GBT)の強みを強化学習(RL)タスクに適応させるフレームワークである。 GBRLは、構造化された観察と分類的特徴を持つ領域において、ニューラルネットワーク(NN)よりも優れていることを示す。
参考スコア（独自算出の注目度）: 9.66275447955737
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Gradient Boosting Reinforcement Learning (GBRL), a framework that adapts the strengths of gradient boosting trees (GBT) to reinforcement learning (RL) tasks. While neural networks (NNs) have become the de facto choice for RL, they face significant challenges with structured and categorical features and tend to generalize poorly to out-of-distribution samples. These are challenges for which GBTs have traditionally excelled in supervised learning. However, GBT's application in RL has been limited. The design of traditional GBT libraries is optimized for static datasets with fixed labels, making them incompatible with RL's dynamic nature, where both state distributions and reward signals evolve during training. GBRL overcomes this limitation by continuously interleaving tree construction with environment interaction. Through extensive experiments, we demonstrate that GBRL outperforms NNs in domains with structured observations and categorical features while maintaining competitive performance on standard continuous control benchmarks. Like its supervised learning counterpart, GBRL demonstrates superior robustness to out-of-distribution samples and better handles irregular state-action relationships.
Abstract（参考訳）: 本稿では, 勾配強化木(GBT)の強度を強化学習(RL)タスクに適応させるフレームワークである, 勾配強化強化学習(GBRL)を提案する。ニューラルネットワーク(NN)は、RLの事実上の選択肢となっているが、構造的および分類的特徴において重大な課題に直面し、配布外サンプルにはあまり一般化しない傾向にある。これらは、GBTが教師付き学習において伝統的に優れている課題である。しかし、GBTのRLでの応用は限られている。従来のGBTライブラリの設計は固定ラベル付き静的データセットに最適化されており、トレーニング中に状態分布と報酬信号の両方が進化するRLの動的性質と互換性がない。 GBRLはこの制限を克服し、木構築と環境相互作用を継続的にインターリーブする。広範にわたる実験により、GBRLは、標準連続制御ベンチマークにおける競合性能を維持しながら、構造化された観察と分類的特徴を持つ領域におけるNNよりも優れていることを示した。教師付き学習と同様、GBRLは分布外サンプルに対して優れた堅牢性を示し、不規則な状態-作用関係をうまく処理する。

関連論文リスト

Towards Improving Long-Tail Entity Predictions in Temporal Knowledge Graphs through Global Similarity and Weighted Sampling [53.11315884128402]
時間知識グラフ(TKG)補完モデルは、伝統的にトレーニング中にグラフ全体へのアクセスを前提としている。本稿では,TKGに特化して設計されたインクリメンタルトレーニングフレームワークを提案する。提案手法は,モデルに依存しない拡張層と加重サンプリング戦略を組み合わせることで,既存のTKG補完手法を拡張および改善することができる。
論文参考訳（メタデータ） (2025-07-25T06:02:48Z)
Comparing Behavioural Cloning and Reinforcement Learning for Spacecraft Guidance and Control Networks [4.868863044142366]
誘導制御ネットワーク(G&CNET)は、宇宙船の誘導制御(G&C)アーキテクチャに代わる有望な代替手段を提供する。 G&CNETのトレーニングでは、最適な軌道を模倣する行動クローニング(BC)と、試行錯誤を通じて最適な行動を学ぶ強化学習(RL)の2つの主要なパラダイムが出現する。我々は、連続スラスト宇宙船軌道最適化タスクにおいて、特にG&CNETを訓練するために、BCとRLを体系的に評価する。我々は、G&CNETに適した新しいRLトレーニングフレームワークを導入し、報酬とともに分離されたアクションと制御周波数を取り入れた。
論文参考訳（メタデータ） (2025-07-22T07:43:38Z)
Leveraging Genetic Algorithms for Efficient Demonstration Generation in Real-World Reinforcement Learning Environments [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、特定の実世界の産業応用において大きな可能性を証明している。本研究では,遺伝的アルゴリズム(GA)をRL性能向上のメカニズムとして活用することを検討した。本稿では,GAによる専門家による実証実験を政策学習の強化に活用する手法を提案する。
論文参考訳（メタデータ） (2025-07-01T14:04:17Z)
SuperRL: Reinforcement Learning with Supervision to Boost Language Model Reasoning [42.54530036364341]
SuperRLは、オフライン監視を強化学習に適応的に組み込む統合トレーニングフレームワークである。 SuperRLは、スパース報酬の下でサンプル効率、一般化、堅牢性を向上させることで、標準強化学習を一貫して上回る。
論文参考訳（メタデータ） (2025-06-01T17:43:54Z)
Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文参考訳（メタデータ） (2025-03-31T08:22:49Z)
Broad Critic Deep Actor Reinforcement Learning for Continuous Control [4.979815588384994]
新しいハイブリッドアクター・クリティック強化学習(RL)フレームワークが導入された。提案するフレームワークは,広範学習システム(BLS)とディープニューラルネットワーク(DNN)を統合する。このハイブリッド設計は一般化可能であり、既存のアクター批判アルゴリズムを拡張できる。
論文参考訳（メタデータ） (2024-11-24T12:24:46Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
IMEX-Reg: Implicit-Explicit Regularization in the Function Space for Continual Learning [17.236861687708096]
連続学習(CL)は、これまで獲得した知識の破滅的な忘れが原因で、ディープニューラルネットワークの長年にわたる課題の1つである。低バッファ状態下でのCLにおける経験リハーサルの一般化性能を改善するために,強い帰納バイアスを用いて人間がどのように学習するかに着想を得たIMEX-Regを提案する。
論文参考訳（メタデータ） (2024-04-28T12:25:09Z)
Stop Regressing: Training Value Functions via Classification for Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文参考訳（メタデータ） (2024-03-06T18:55:47Z)
SMORE: Score Models for Offline Goal-Conditioned Reinforcement Learning [33.125187822259186]
オフライン目標定義強化学習(GCRL)は、スパース報酬関数を使用して、オフラインデータセットから純粋な環境において、複数の目標を達成するための学習を行う。我々は混合分布マッチングの新しいレンズの下でGCRLに新しいアプローチを提案する。
論文参考訳（メタデータ） (2023-11-03T16:19:33Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Uncovering the Structural Fairness in Graph Contrastive Learning [87.65091052291544]
グラフコントラスト学習(GCL)は、ノード表現を学習するための有望な自己教師型アプローチとして登場した。 GCL法で得られた表現は,GCN法で学習した表現よりも既に公平であることを示す。我々は、低次ノードと高次ノードに異なる戦略を適用し、GRAph contrastive learning for Degree bias (GRADE)と呼ばれるグラフ拡張手法を考案した。
論文参考訳（メタデータ） (2022-10-06T15:58:25Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning [92.18524491615548]
対照的な自己指導型学習は、(深層)強化学習(RL)の実践にうまく統合されている我々は,低ランク遷移を伴うマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて,コントラスト学習によってRLをどのように強化できるかを検討する。オンライン環境下では,MDPやMGのオンラインRLアルゴリズムと対照的な損失を生かした,新しい高信頼境界(UCB)型アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-29T17:29:08Z)
Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。 PBTスタイルの手法に2つの新しい革新を導入する。これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文参考訳（メタデータ） (2022-07-19T16:57:38Z)
Why So Pessimistic? Estimating Uncertainties for Offline RL through Ensembles, and Why Their Independence Matters [35.17151863463472]
オフライン強化学習(RL)における悲観主義の根源として、Q$関数のアンサンブルをどのように活用できるかを、再検討する。我々は、完全に独立したネットワークに基づいて、独立に計算されたターゲットと$Q$関数のアンサンブルを訓練する実用的なオフラインRLアルゴリズムMSGを提案する。 D4RL と RL Unplugged のオフライン RL ベンチマーク実験により,深いアンサンブルを持つMSG が高度に調整された最先端の手法を広いマージンで超えることを示した。
論文参考訳（メタデータ） (2022-05-27T01:30:12Z)
Contextualize Me -- The Case for Context in Reinforcement Learning [49.794253971446416]
文脈強化学習(cRL)は、このような変化を原則的にモデル化するためのフレームワークを提供する。我々は,cRLが有意義なベンチマークや一般化タスクに関する構造化推論を通じて,RLのゼロショット一般化の改善にどのように貢献するかを示す。
論文参考訳（メタデータ） (2022-02-09T15:01:59Z)
Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文参考訳（メタデータ） (2021-12-31T18:10:02Z)
Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文参考訳（メタデータ） (2021-09-29T00:50:00Z)
Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文参考訳（メタデータ） (2021-06-14T18:48:40Z)
Improving Generalization in Reinforcement Learning with Mixture Regularization [113.12412071717078]
そこで本研究では,異なるトレーニング環境からの観察を混合してエージェントを訓練する,mixregという簡単なアプローチを提案する。 Mixregはデータの多様性をより効果的に向上し、よりスムーズなポリシーを学ぶのに役立つ。その結果、mixregは、未確認テスト環境において確立されたベースラインを大きなマージンで上回る結果となった。
論文参考訳（メタデータ） (2020-10-21T08:12:03Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。