Fugu-MT 論文翻訳(概要): RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation

論文の概要: RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation

arxiv url: http://arxiv.org/abs/2405.03064v1
Date: Sun, 5 May 2024 22:06:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 15:14:27.633261
Title: RICE: Breaking Through the Training Bottlenecks of Reinforcement Learning with Explanation
Title（参考訳）: RICE:説明による強化学習の学習基盤を突破する
Authors: Zelei Cheng, Xian Wu, Jiahao Yu, Sabrina Yang, Gang Wang, Xinyu Xing,
Abstract要約: RICEは強化学習のための革新的な精製手法である。トレーニングボトルネックを突破するための説明手法が組み込まれている。様々なRL環境と実世界のアプリケーションでRICEを評価する。
参考スコア（独自算出の注目度）: 40.84214941048131
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep reinforcement learning (DRL) is playing an increasingly important role in real-world applications. However, obtaining an optimally performing DRL agent for complex tasks, especially with sparse rewards, remains a significant challenge. The training of a DRL agent can be often trapped in a bottleneck without further progress. In this paper, we propose RICE, an innovative refining scheme for reinforcement learning that incorporates explanation methods to break through the training bottlenecks. The high-level idea of RICE is to construct a new initial state distribution that combines both the default initial states and critical states identified through explanation methods, thereby encouraging the agent to explore from the mixed initial states. Through careful design, we can theoretically guarantee that our refining scheme has a tighter sub-optimality bound. We evaluate RICE in various popular RL environments and real-world applications. The results demonstrate that RICE significantly outperforms existing refining schemes in enhancing agent performance.
Abstract（参考訳）: 深層強化学習(DRL)は、現実世界の応用においてますます重要な役割を担っている。しかし、複雑なタスク、特にスパース報酬に最適なDRLエージェントを得ることは、依然として大きな課題である。 DRL剤の訓練は、さらなる進歩を伴わずにボトルネックに陥ることがしばしばある。本稿では,訓練ボトルネックを突破するための説明手法を取り入れた強化学習のための革新的精錬手法であるRICEを提案する。 RICEの高レベルな考え方は、デフォルトの初期状態と説明方法で識別された臨界状態の両方を組み合わせた新しい初期状態分布を構築し、エージェントが混合初期状態から探索することを奨励することである。慎重に設計することで、我々の精製方式がより厳密な準最適境界を持つことを理論的に保証できる。様々なRL環境と実世界のアプリケーションでRICEを評価する。その結果, RICEは, エージェント性能の向上において, 既存の精製方式よりも大幅に優れていた。

関連論文リスト

Resource-Efficient Reinforcement for Reasoning Large Language Models via Dynamic One-Shot Policy Refinement [21.073482007189504]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な性能を示した。検証可能な報酬(RLVR)の下での強化学習は、モデル行動と推論連鎖を整合させるための原則的な枠組みとして現れつつある。その約束にもかかわらず、RLVRは厳しい資源集約であり、広範な報奨信号を必要とし、訓練中にかなりのロールアウトコストを発生させる。
論文参考訳（メタデータ） (2026-01-31T16:51:50Z)
ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文参考訳（メタデータ） (2026-01-29T16:04:59Z)
Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2026-01-06T09:28:53Z)
RLVMR: Reinforcement Learning with Verifiable Meta-Reasoning Rewards for Robust Long-Horizon Agents [43.806220882212386]
RLVMRは、検証可能なメタ推論の振る舞いに報いることによって、密集したプロセスレベルの監視をエンドツーエンドのRLに統合する。挑戦的なALFWorldとScienceWorldのベンチマークでは、RLVMRが新たな最先端の結果を達成している。
論文参考訳（メタデータ） (2025-07-30T17:00:48Z)
Reinforcement Learning Teachers of Test Time Scaling [20.251827725749607]
LMを推論する主要なユースケースは、新しい学生を蒸留し、将来のRLイテレーションを冷静に開始する教師として機能することである。我々は,RLの探究課題を回避するために,RLT(Reinforcement-Learned Teachers)の新たなクラスを育成する枠組みを導入する。 RLTは、各問題に対する質問と解決の両方で促され、生徒に合った詳細な説明で単に「接続する」ことを任務とする。
論文参考訳（メタデータ） (2025-06-10T02:53:24Z)
RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文参考訳（メタデータ） (2025-05-27T05:27:54Z)
Improving RL Exploration for LLM Reasoning through Retrospective Replay [45.00643118030677]
本稿では,Retrospective Replay-based Reinforcement Learning (RRL) という新しいアルゴリズムを提案する。 RRLにより、モデルが早期に特定された有望な状態を再検討し、探索の効率性と有効性を向上させることができる。
論文参考訳（メタデータ） (2025-04-19T17:40:04Z)
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce [68.99924691391048]
我々はGRPOを強化的なアルゴリズムの観点から再検討し、そのコアコンポーネントを分析する。単純な拒絶サンプリングベースラインであるRAFTは,GRPOやPPOよりも競争性能が高いことがわかった。この知見に触発されて、完全に正しくないサンプルと完全に正しいサンプルの両方をフィルタリングするポリシー勾配の最小限の拡張であるReinforce-Rejを提案する。
論文参考訳（メタデータ） (2025-04-15T16:15:02Z)
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文参考訳（メタデータ） (2025-03-11T15:17:02Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。 RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。 AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning [50.55776190278426]
外部報酬は、特定のタスクにおける強化学習(RL)エージェントを効果的に導くことができる。 RLeXploreは,8つの最先端固有の報酬アルゴリズムの信頼性を実現する,統一的で高度にモジュール化されたプラグイン・アンド・プレイフレームワークである。
論文参考訳（メタデータ） (2024-05-29T22:23:20Z)
Scalable Volt-VAR Optimization using RLlib-IMPALA Framework: A Reinforcement Learning Approach [11.11570399751075]
本研究は, 深層強化学習(DRL)の可能性を活用した新しい枠組みを提案する。 DRLエージェントをRAYプラットフォームに統合することにより、RAYのリソースを効率的に利用してシステム適応性と制御を改善する新しいフレームワークであるRLlib-IMPALAの開発が容易になる。
論文参考訳（メタデータ） (2024-02-24T23:25:35Z)
Imitation Bootstrapped Reinforcement Learning [31.916571349600684]
模擬ブートストラップ強化学習(IBRL)はサンプル効率強化学習のための新しいフレームワークである。 IBRLを6つのシミュレーションと3つの実世界のタスクで評価した。
論文参考訳（メタデータ） (2023-11-03T19:03:20Z)
When Learning Is Out of Reach, Reset: Generalization in Autonomous Visuomotor Reinforcement Learning [10.469509984098705]
エピソードトレーニング(英: Episodic training)とは、エージェントの環境が成功や失敗の度にリセットされ、強化学習(RL)エージェントを訓練する際のデファクトスタンダードである。この研究では、視覚エージェントを構築しながら、リセットを完全に排除するのではなく、最小限にしたいと考えています。提案手法は, 先行のエピソード, リセットフリー, リセット最小化アプローチよりも高い成功率を達成することができる。
論文参考訳（メタデータ） (2023-03-30T17:59:26Z)
Towards Deployment-Efficient Reinforcement Learning: Lower Bound and Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文参考訳（メタデータ） (2022-02-14T01:31:46Z)
Dynamics Generalization via Information Bottleneck in Deep Reinforcement Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文参考訳（メタデータ） (2020-08-03T02:24:20Z)
Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文参考訳（メタデータ） (2020-01-20T02:19:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。