論文の概要: Behavior-Consistent Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.21214v2
- Date: Thu, 21 May 2026 13:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.916288
- Title: Behavior-Consistent Deep Reinforcement Learning
- Title(参考訳): 行動に一貫性のある深層強化学習
- Authors: Marcel Hussing, Liv G. d'Aliberti, Claas Voelcker, Benjamin Eysenbach, Eric Eaton,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、トレーニング実行中に高いばらつきを示し、信頼性の低いパフォーマンスをもたらす。
本研究では,行動整合性RLの問題を定式化することで,横断的政策分岐の課題に対処する。
QED(Q$-value expectile Disagreement)は,クロスラン不一致のための単一実行プロキシとして二重批判不一致を用いた状態依存型温度スケジュールである。
- 参考スコア(独自算出の注目度): 33.58105564355424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) often exhibits high variance across training runs, leading to unreliable performance and posing a major challenge to deployment in real-world domains. In this work, we address the challenge of cross-run policy divergence by formalizing the problem of behavior-consistent RL, where the objective is to obtain policies that are both high-performing and distributionally similar across training runs. Our key observation is that maximum-entropy RL provides a direct mechanism for controlling behavioral divergence by anchoring runs to a common (uniform) prior. We prove that, for Boltzmann policies, choosing the temperature proportional to $Q$-function disagreement bounds the pairwise KL divergence between the induced policies. However, we also show that naïvely increasing entropy might impair policy optimization while amplifying off-policy error. Building upon these observations, we propose $Q$-value Expectile Disagreement (QED), a state-dependent temperature schedule that uses double-critic disagreement as a single-run proxy for cross-run disagreement. Empirically, we demonstrate that across 18 continuous-control tasks, QED reduces across-run divergence by two orders of magnitude without sacrificing performance, resulting in a considerable reduction in return variance at modest sample-efficiency costs.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、トレーニング実行中に高いばらつきを示し、信頼性の低いパフォーマンスをもたらし、現実世界のドメインに展開する上で大きな課題となる。
本研究では,行動整合性RLの問題を定式化することで,横断的政策分岐の課題に対処する。
我々のキーとなる観察は、最大エントロピーRLは、前もって共通(一様)にランを固定することで振舞いを制御できる直接的なメカニズムを提供するということである。
ボルツマンのポリシーでは、$Q$-関数の不一致に比例する温度を選択することは、誘導されたポリシー間のペアワイズKLのばらつきを限定することを証明する。
しかし,不必要なエントロピーの増加は政策の最適化を損なう可能性があり,非政治的誤りを増幅する可能性も示された。
これらの観測結果に基づいて, クロスラン不一致のための単一実行プロキシとして二重批判不一致を用いた状態依存型温度スケジュールであるQ$-value expectile Disagreement (QED)を提案する。
実験により,18の連続制御タスクにおいて,QEDは性能を損なうことなく2桁のばらつきを低減し,最小限のサンプル効率コストでの戻り分散を著しく低減することを示した。
関連論文リスト
- DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models [55.01951088768769]
DiffusionOPDはオンライン政策蒸留(OPD)に基づく拡散モデルのための新しいマルチタスクトレーニングパラダイムである
本研究では,DiffusionOPDがトレーニング効率と最終性能において,マルチリワードRLとカスケードRLのベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-14T16:49:09Z) - Robust Adversarial Policy Optimization Under Dynamics Uncertainty [8.729531978655737]
強化学習(RL)ポリシーは、トレーニングとは異なるダイナミクスの下で失敗することが多い。
本稿では、ロバスト性-性能トレードオフを直接露呈する二重定式化を提案する。
結果として得られるフレームワークである、堅牢な逆ポリシー最適化(RAPO)は、ロバストなRLベースラインを上回っている。
論文 参考訳(メタデータ) (2026-04-13T04:23:54Z) - Flow Matching Policy with Entropy Regularization [16.47598359293598]
Flow Matching Policy with Entropy Regularization (FMER)は、通常の微分方程式(ODE)ベースのオンラインRLフレームワークである。
FMERは、フローマッチングを通じてポリシーをパラメータ化し、最適な輸送によって動機付けられたストレートな確率経路に沿ってアクションをサンプリングする。
スパースマルチゴールのFrankaKitchenベンチマークの実験は、FMERが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2026-03-18T13:00:20Z) - Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning [88.42566960813438]
CalibRLは、制御可能な探索と専門家のガイダンスをサポートするハイブリッド政治RLVRフレームワークである。
CalibRLは政策エントロピーを誘導的に増加させ、目標分布を明らかにする。
ドメイン内設定とドメイン外設定の両方を含む8つのベンチマークの実験は、一貫した改善を示している。
論文 参考訳(メタデータ) (2026-02-22T07:23:36Z) - Rediscovering Entropy Regularization: Adaptive Coefficient Unlocks Its Potential for LLM Reinforcement Learning [55.59724323303857]
本稿では,3つのコンポーネントによる探索と利用のバランスをとるフレームワークを提案する。
複数の数学的推論ベンチマークの実験は、AERが一貫してベースラインを上回り、推論精度と探索能力の両方を改善していることを示している。
論文 参考訳(メタデータ) (2025-10-13T03:10:26Z) - The Entropy Mechanism of Reinforcement Learning for Reasoning Language Models [99.98293908799731]
本稿では,LLMによる推論,すなわち政策エントロピーの崩壊において,RLのスケーリングの大きな障害を克服することを目的としている。
実際には、エントロピーHと下流性能Rの間の変換方程式R=-a*eH+bを確立する。
Clip-Cov と KL-Cov という2つの単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T17:38:45Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。