Fugu-MT 論文翻訳(概要): Contextualized Hybrid Ensemble Q-learning: Learning Fast with Control Priors

論文の概要: Contextualized Hybrid Ensemble Q-learning: Learning Fast with Control Priors

arxiv url: http://arxiv.org/abs/2406.19768v2
Date: Mon, 1 Jul 2024 11:02:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 12:30:11.866061
Title: Contextualized Hybrid Ensemble Q-learning: Learning Fast with Control Priors
Title（参考訳）: 文脈型ハイブリッド・アンサンブルQ-ラーニング:制御優先で高速に学習する
Authors: Emma Cramer, Bernd Frauenknecht, Ramil Sabirov, Sebastian Trimpe,
Abstract要約: 適応型ハイブリッド強化学習アルゴリズムCHEQ(Contextualized Hybrid Ensemble Q-learning)を提案する。 CHEQは、(i)適応重みを文脈変数として扱う適応ハイブリッドRL問題の時間不変な定式化、(ii)批判アンサンブルのパラメトリック不確実性に基づく重み適応機構、(iii)データ効率RLのためのアンサンブルベースの加速度の3つの重要な要素を組み合わせる。 CHEQをカーレースタスクで評価することで、最先端の適応型ハイブリッドRL法よりもデータ効率、探索安全性、未知のシナリオへの転送性が大幅に向上する。
参考スコア（独自算出の注目度）: 5.004576576202551
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Combining Reinforcement Learning (RL) with a prior controller can yield the best out of two worlds: RL can solve complex nonlinear problems, while the control prior ensures safer exploration and speeds up training. Prior work largely blends both components with a fixed weight, neglecting that the RL agent's performance varies with the training progress and across regions in the state space. Therefore, we advocate for an adaptive strategy that dynamically adjusts the weighting based on the RL agent's current capabilities. We propose a new adaptive hybrid RL algorithm, Contextualized Hybrid Ensemble Q-learning (CHEQ). CHEQ combines three key ingredients: (i) a time-invariant formulation of the adaptive hybrid RL problem treating the adaptive weight as a context variable, (ii) a weight adaption mechanism based on the parametric uncertainty of a critic ensemble, and (iii) ensemble-based acceleration for data-efficient RL. Evaluating CHEQ on a car racing task reveals substantially stronger data efficiency, exploration safety, and transferability to unknown scenarios than state-of-the-art adaptive hybrid RL methods.
Abstract（参考訳）: 強化学習(RL)と事前のコントローラを組み合わせることで、RLは複雑な非線形問題を解くことができ、事前制御はより安全な探索と訓練の高速化を保証します。以前の作業は、RLエージェントのパフォーマンスがトレーニングの進捗と状態空間の領域によって異なることを無視して、両方のコンポーネントを固定重量でブレンドする。そこで我々は,RLエージェントの現在の能力に基づいて動的に重み付けを調整する適応戦略を提案する。本稿では,新しい適応型ハイブリッドRLアルゴリズムであるContextualized Hybrid Ensemble Q-learning (CHEQ)を提案する。 CHEQには3つの重要な要素が組み合わさっている。 i)適応重みを文脈変数として扱う適応ハイブリッドRL問題の時間不変な定式化。二批評家合奏のパラメトリック不確実性に基づく重み適応機構及び 3)データ効率向上のためのアンサンブルベースの加速度。カーレースタスクにおけるCHEQの評価は、最先端の適応型ハイブリッドRL法よりもはるかに強力なデータ効率、探索安全性、未知のシナリオへの転送性を示す。

関連論文リスト

SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent [63.15417992240217]
本稿では,SkyRL-Agentについて紹介する。効率的な非同期ディスパッチ、軽量ツールの統合、柔軟なバックエンドの相互運用性を提供する。我々は、Qwen3-32B (24.4% Pass@1)からトレーニングを受けたソフトウェアエンジニアリングエージェントであるSA-SWE-32Bを、純粋に強化学習で訓練する。
論文参考訳（メタデータ） (2025-11-20T07:05:19Z)
RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。 RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文参考訳（メタデータ） (2025-10-22T04:19:37Z)
Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文参考訳（メタデータ） (2025-06-17T17:12:34Z)
Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。 SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文参考訳（メタデータ） (2025-06-05T07:53:59Z)
CHEQ-ing the Box: Safe Variable Impedance Learning for Robotic Polishing [5.467140383171385]
本研究では, 可変インピーダンスを有するロボット研磨のためのハイブリッドRLアルゴリズムCHEQの実験的検討を行った。ハードウェア上では、CHEQは効果的な研磨動作を実現し、8時間のトレーニングを必要とせず、5回の障害しか発生しない。その結果、ハードウェア上で直接訓練された実世界のコンタクトリッチなタスクに対して、適応型ハイブリッドRLの可能性を浮き彫りにした。
論文参考訳（メタデータ） (2025-01-14T10:13:41Z)
Adaptive $Q$-Network: On-the-fly Target Selection for Deep Reinforcement Learning [18.579378919155864]
我々は、追加のサンプルを必要としない最適化手順の非定常性を考慮するために、Adaptive $Q$Network (AdaQN)を提案する。 AdaQNは理論上は健全で、MuJoCo制御問題やAtari 2600のゲームで実証的に検証されている。
論文参考訳（メタデータ） (2024-05-25T11:57:43Z)
Data-efficient Deep Reinforcement Learning for Vehicle Trajectory Control [6.144517901919656]
強化学習(RL)は、古典的なアプローチよりも優れた制御性能を達成することを約束する。 SAC(Soft-actor critic)のような標準RLアプローチでは、大量のトレーニングデータを収集する必要がある。近年開発されたディープRL法を車両軌道制御に適用した。
論文参考訳（メタデータ） (2023-11-30T09:38:59Z)
Data-Efficient Task Generalization via Probabilistic Model-based Meta Reinforcement Learning [58.575939354953526]
PACOH-RLはメタ強化学習(Meta-RL)アルゴリズムである。既存のMeta-RLメソッドは豊富なメタ学習データを必要とし、ロボット工学などの設定で適用性を制限する。実験の結果,PACOH-RLはモデルベースRLおよびモデルベースMeta-RLベースラインよりも高い性能を示し,新しい動的条件に適応することがわかった。
論文参考訳（メタデータ） (2023-11-13T18:51:57Z)
Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。 FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文参考訳（メタデータ） (2023-10-27T08:30:54Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Reward-agnostic Fine-tuning: Provable Statistical Benefits of Hybrid Reinforcement Learning [66.43003402281659]
オンラインデータ収集を効率的に活用してオフラインデータセットを強化し補完する方法に、中心的な疑問が浮かび上がっている。我々は、純粋なオフラインRLと純粋なオンラインRLという、両方の世界のベストを打ち負かす3段階のハイブリッドRLアルゴリズムを設計する。提案アルゴリズムは,データ収集時に報酬情報を必要としない。
論文参考訳（メタデータ） (2023-05-17T15:17:23Z)
Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文参考訳（メタデータ） (2022-11-07T08:05:13Z)
Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient [42.47810044648846]
エージェントがオフラインのデータセットにアクセスでき、実世界のオンラインインタラクションを通じて経験を収集できるハイブリッド強化学習環境(Hybrid RL)を検討する。従来のQラーニング/イテレーションアルゴリズムをハイブリッド環境に適用し,ハイブリッドQラーニングやHy-Qと呼ぶ。ニューラルネットワーク関数近似を用いたHy-Qは、挑戦的なベンチマークにおいて、最先端のオンライン、オフライン、ハイブリッドRLベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2022-10-13T04:19:05Z)
Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文参考訳（メタデータ） (2020-09-03T10:04:06Z)
SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。 SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文参考訳（メタデータ） (2020-07-09T17:08:44Z)
Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文参考訳（メタデータ） (2019-12-31T00:29:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。