論文の概要: On Distributional Reinforcement Learning in Chaotic Dynamical Systems
- arxiv url: http://arxiv.org/abs/2605.30160v1
- Date: Thu, 28 May 2026 16:17:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.477252
- Title: On Distributional Reinforcement Learning in Chaotic Dynamical Systems
- Title(参考訳): カオス力学系における分散強化学習について
- Authors: James Rudd-Jones, Mirco Musolesi, María Pérez-Ortiz,
- Abstract要約: カオス力学系は強化学習(RL)に根本的な課題をもたらす
軽度の統計的安定性仮定の下では、1ドル=ワッサーシュタイン計量で測定すると、回帰分布は個々の軌道よりも周期的に進化する。
カオスシステムにおける分散手法の利点とカオス下でのRL目標の最適化について、原理的な説明を提供する。
- 参考スコア(独自算出の注目度): 6.932921577765093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chaotic dynamical systems pose a fundamental challenge for Reinforcement Learning (RL): exponential sensitivity to initial conditions induces high-variance bootstrap targets and poorly conditioned gradient updates. Chaotic dynamics arise across scientific and engineering domains, from fluid flows and climate systems to multi-agent systems, where reliable learning is highly desirable. Standard RL methods optimise expected returns through scalar value functions, implicitly averaging over diverging trajectories and entangling trajectory level instability with the learning objective. We show that under mild statistical stability assumptions, the return distribution evolves more regularly than individual trajectories when measured under the $1$-Wasserstein metric, yielding a smoother distributional Bellman objective. By aligning optimisation with this measure level structure, distributional RL provides better conditioned learning. We offer a principled explanation for the advantages of distributional methods in chaotic systems and the geometries of RL objectives under chaos.
- Abstract(参考訳): カオス力学系は強化学習(RL: Reinforcement Learning)の基本的な課題であり、初期条件に対する指数的な感度は、高分散ブートストラップターゲットを誘導し、条件付き勾配更新を低下させる。
カオス力学は、流体の流れや気候システムから、信頼できる学習が極めて望ましいマルチエージェントシステムまで、科学と工学の領域にまたがる。
標準RL法は、スカラー値関数によって期待されるリターンを最適化し、軌道のばらつきを暗黙的に平均化し、学習目的とトラジェクトリレベルの不安定を絡ませる。
軽度統計安定仮定の下では,1ドル=ワッサーシュタイン計量で測定された場合,回帰分布は個々の軌道よりも周期的に進化し,より滑らかな分布をベルマンの目的とすることを示す。
最適化をこの測定レベル構造と整合させることで、分布RLはより良い条件付き学習を提供する。
カオスシステムにおける分散手法の利点とカオス下でのRL目標のジオメトリの原理的説明を提供する。
関連論文リスト
- Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving [22.3805998088591]
DACER-Fは、自律運転システムにおける生成ポリシーのフローマッチングアルゴリズムである。
ヒューマノイド・スタンド・タスクで775.8のスコアを獲得し、以前の手法を上回ります。
論文 参考訳(メタデータ) (2026-03-03T05:35:53Z) - ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - Model-Agnostic Solutions for Deep Reinforcement Learning in Non-Ergodic Contexts [3.5577285720638194]
強化学習(Reinforcement Learning, RL)は、機械学習における中心的な最適化フレームワークである。
ベルマン方程式は、ほとんどのRLアルゴリズムの中心であり、将来の報酬の期待値の観点から定式化されている。
非エルゴード環境では、アンサンブル平均は個々のエージェントが経験する平均的な成長から分岐する。
論文 参考訳(メタデータ) (2026-01-13T16:53:40Z) - Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Dynamic Rank Reinforcement Learning for Adaptive Low-Rank Multi-Head Self Attention in Large Language Models [0.0]
大規模言語モデル(LLM)におけるマルチヘッド自己認識(MHSA)の低ランク分解を適応的に最適化する新しいフレームワークである動的ランク強化学習(DR-RL)を提案する。
DR-RLは、浮動小数点演算(FLOP)を著しく低減しつつ、フルランクアテンションと統計的に等価な下流精度を維持している
この研究は、MHSAの適応効率と理論的厳密さのギャップを埋め、リソース制約の深層学習におけるランク低減技術に代えて、原理的に数学的に基礎付けられた代替手段を提供する。
論文 参考訳(メタデータ) (2025-12-17T21:09:19Z) - Reasoning in Diffusion Large Language Models is Concentrated in Dynamic Confusion Zones [3.7312377768685714]
本稿では,RL の目標,報酬,計算予算を変更することなく,高平均ステップへの勾配更新を動的に再配置する軽量なステップ選択戦略である Adaptive Trajectory Policy Optimization (ATPO) を提案する。
ATPOは、dLLM RLを進める上で、軌道動力学の活用が鍵であることを示し、ベンチマーク全体にわたって精度とトレーニング安定性の推論においてかなりの向上をもたらす。
論文 参考訳(メタデータ) (2025-11-19T07:59:34Z) - On the Design of KL-Regularized Policy Gradient Algorithms for LLM Reasoning [59.11784194183928]
政策勾配アルゴリズムは大規模言語モデル(LLM)の推論能力の向上に成功している。
規則化されたポリシーグラディエント(RPG)ビューは、広く使われている$k_3$ペナルティが、正確には非正規化されたKLであることを示している。
RPG-REINFORCE with RPG-Style Clipは、DAPOよりも最大6ドル以上の絶対パーセンテージポイントの精度を向上させる。
論文 参考訳(メタデータ) (2025-05-23T06:01:21Z) - ROCM: RLHF on consistency models [8.905375742101707]
一貫性モデルにRLHFを適用するための報酬最適化フレームワークを提案する。
正規化戦略として様々な$f$-divergencesを調査し、報酬とモデルの一貫性のバランスを崩す。
論文 参考訳(メタデータ) (2025-03-08T11:19:48Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。