論文の概要: Dynamical Priors as a Training Objective in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.21464v1
- Date: Thu, 23 Apr 2026 09:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.408278
- Title: Dynamical Priors as a Training Objective in Reinforcement Learning
- Title(参考訳): 強化学習における訓練対象としての動的事前
- Authors: Sukesh Subaharan,
- Abstract要約: 外部状態のダイナミクスから引き出された補助的損失で政策勾配学習を増強する学習フレームワークであるDP-RLを導入する。
DP-RLは, 汎用的平滑化では説明できない時間的構造的挙動を促進できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Standard reinforcement learning (RL) optimizes policies for reward but imposes few constraints on how decisions evolve over time. As a result, policies may achieve high performance while exhibiting temporally incoherent behavior such as abrupt confidence shifts, oscillations, or degenerate inactivity. We introduce Dynamical Prior Reinforcement Learning (DP-RL), a training framework that augments policy gradient learning with an auxiliary loss derived from external state dynamics that implement evidence accumulation and hysteresis. Without modifying the reward, environment, or policy architecture, this prior shapes the temporal evolution of action probabilities during learning. Across three minimal environments, we show that dynamical priors systematically alter decision trajectories in task-dependent ways, promoting temporally structured behavior that cannot be explained by generic smoothing. These results demonstrate that training objectives alone can control the temporal geometry of decision-making in RL agents.
- Abstract(参考訳): 標準強化学習(RL)は報酬のためのポリシーを最適化するが、時間とともに意思決定がどのように進化するかに制約を課す。
その結果、政策は急激な信頼シフト、発振、あるいは退化不活性のような時間的に不整合な行動を示しながら高いパフォーマンスを達成することができる。
本稿では,政策勾配学習を,証拠蓄積とヒステリシスを実装した外部状態ダイナミクスによる補助的損失で強化する学習フレームワークであるDP-RLを紹介する。
報酬、環境、あるいはポリシーアーキテクチャを変更することなく、この事前は学習中の行動確率の時間的進化を形作る。
3つの最小限の環境において、動的事前はタスク依存的な方法で決定軌跡を体系的に変更し、一般的な平滑化では説明できない時間的構造化行動を促進する。
これらの結果から,RLエージェントの時間的形状を学習目的だけで制御できることが示唆された。
関連論文リスト
- ICPRL: Acquiring Physical Intuition from Interactive Control [38.098959182766144]
ICPRL(In-Context Physical Reinforcement Learning, In-Context Physical Reinforcement Learning, In-Context Physical Reinforcement Learning, ICPRL)は、VLMが物理的直観を習得し、そのポリシーを文脈内で適応することを可能にするフレームワークである。
提案手法は,多面的相互作用履歴に基づいて,多面的グループ相対的ポリシー最適化(GRPO)を介して,視覚的な政策モデルを訓練する。
これによりエージェントは、過去の試行錯誤シーケンスを条件にすることで、重み更新を必要とせずに戦略を適応することができる。
論文 参考訳(メタデータ) (2026-03-01T15:17:18Z) - TEACH: Temporal Variance-Driven Curriculum for Reinforcement Learning [8.366600075241847]
本稿では,目標設定RLを高速化するために,時間変数駆動型カリキュラムを用いた新しい学生-教師学習パラダイムを提案する。
このフレームワークでは、教師モジュールはポリシーの信頼度スコアが最も高い時間差で目標を動的に優先順位付けする。
11種類の多様なロボット操作および迷路ナビゲーションタスクの評価を通じてこれを実証する。
論文 参考訳(メタデータ) (2025-12-28T07:29:29Z) - Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization [11.320660946946523]
非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
我々は、明白な批評家と政治上の強化学習を行うことが両立していることを示す。
我々は,政策評価と政策改善の段階において,明らかな不確実性定量化の不可欠な役割から,結果のアルゴリズムであるemphEvidential Proximal Policy Optimization (EPPO) を命名した。
論文 参考訳(メタデータ) (2025-03-03T12:23:07Z) - REACT: Revealing Evolutionary Action Consequence Trajectories for Interpretable Reinforcement Learning [7.889696505137217]
強化学習の解釈可能性を高めるために,Revealing Evolutionary Action Consequence Trajectories (REACT)を提案する。
トレーニング中に学習した最適な振る舞いに基づくRLモデルの一般的な実践とは対照的に、エッジケースの軌跡の範囲を考慮すると、それらの固有の振る舞いをより包括的に理解することができると仮定する。
本研究は,RLモデルの動作の微妙な側面を最適性能を超えて明らかにし,解釈可能性の向上に寄与することを示す。
論文 参考訳(メタデータ) (2024-04-04T10:56:30Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。