論文の概要: Visualizing Critic Match Loss Landscapes for Interpretation of Online Reinforcement Learning Control Algorithms
- arxiv url: http://arxiv.org/abs/2603.14535v1
- Date: Sun, 15 Mar 2026 18:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.871583
- Title: Visualizing Critic Match Loss Landscapes for Interpretation of Online Reinforcement Learning Control Algorithms
- Title(参考訳): オンライン強化学習制御アルゴリズムの解釈のための批判的マッチング損失の可視化
- Authors: Jingyi Liu, Jian Guo, Eberhard Gill,
- Abstract要約: 本研究は,オンライン強化学習のための批評家マッチング損失ランドスケープ可視化手法を提案する。
記録された批判パラメータの軌跡を低次元線形部分空間に投影することにより、損失景観を構築する。
批判的学習行動を特徴付ける2次元最適化パスとともに、3次元の損失面を生成する。
- 参考スコア(独自算出の注目度): 12.940253083606066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has proven its power on various occasions. However, its performance is not always guaranteed when system dynamics change. Instead, it largely relies on users' empirical experience. For reinforcement learning algorithms with an actor-critic structure, the critic neural network reflects the approximation and optimization process in the RL algorithm. Analyzing the performance of the critic neural network helps to understand the mechanism of the algorithm. To support systematic interpretation of such algorithms in dynamic control problems, this work proposes a critic match loss landscape visualization method for online reinforcement learning. The method constructs a loss landscape by projecting recorded critic parameter trajectories onto a low-dimensional linear subspace. The critic match loss is evaluated over the projected parameter grid using fixed reference state samples and temporal-difference targets. This yields a three-dimensional loss surface together with a two-dimensional optimization path that characterizes critic learning behavior. To extend analysis beyond visual inspection, quantitative landscape indices and a normalized system performance index are introduced, enabling structured comparison across different training outcomes. The approach is demonstrated using the Action-Dependent Heuristic Dynamic Programming algorithm on cart-pole and spacecraft attitude control tasks. Comparative analyses across projection methods and training stages reveal distinct landscape characteristics associated with stable convergence and unstable learning. The proposed framework enables both qualitative and quantitative interpretation of critic optimization behavior in online reinforcement learning.
- Abstract(参考訳): 強化学習は様々な場面でその力を証明してきた。
しかし、システムダイナミクスが変化するとき、その性能は必ずしも保証されない。
その代わり、ユーザー体験に大きく依存する。
アクタークリティカルな構造を持つ強化学習アルゴリズムでは、批評家ニューラルネットワークはRLアルゴリズムの近似と最適化プロセスを反映する。
批判的ニューラルネットワークのパフォーマンスを分析することは、アルゴリズムのメカニズムを理解するのに役立つ。
動的制御問題におけるそのようなアルゴリズムの体系的解釈を支援するために,オンライン強化学習のための批判的マッチング損失景観可視化手法を提案する。
記録された批判パラメータの軌跡を低次元線形部分空間に投影することにより、損失景観を構築する。
予測されたパラメータグリッド上で、固定参照状態サンプルと時間差目標を用いて、批評家の一致損失を評価する。
これにより、批判的学習行動を特徴付ける2次元最適化パスとともに、3次元の損失面が得られる。
視覚検査を超えて分析を拡張するために、定量的ランドスケープ指標と正規化されたシステムパフォーマンス指標を導入し、異なるトレーニング結果間で構造化された比較を可能にする。
この手法は、カートポールおよび宇宙船姿勢制御タスクにおけるアクション依存ヒューリスティック動的プログラミングアルゴリズムを用いて実証される。
プロジェクション法とトレーニング段階の比較分析により,安定した収束と不安定な学習に関連するランドスケープ特性が明らかとなった。
提案フレームワークは,オンライン強化学習における批判的最適化行動の質的および定量的解釈を可能にする。
関連論文リスト
- A Loss Landscape Visualization Framework for Interpreting Reinforcement Learning: An ADHDP Case Study [12.940253083606066]
強化学習アルゴリズムは、動的および制御システムで広く使われている。
本研究では,この手法を学習力学の多視点ビューを提供するフレームワークに拡張する。
このフレームワークは、ADHDPのバリエーションを比較するために適用され、トレーニングスタビライザとターゲット更新が最適化の状況をどのように変えるかを示している。
論文 参考訳(メタデータ) (2026-03-15T20:47:30Z) - Adapting Critic Match Loss Landscape Visualization to Off-policy Reinforcement Learning [12.940253083606066]
本研究は、オンラインから外部強化学習(RL)まで、確立された批評家一致損失景観可視化手法を拡張した。
Off-policy RLは、リプレイベースのデータフローとターゲット計算において、段階的にオンラインアクター批判学習とは異なる。
その結果、適応型批評家マッチング損失可視化フレームワークは、批評家最適化力学を解析するための幾何学的診断ツールとして機能することを示した。
論文 参考訳(メタデータ) (2026-03-15T20:21:22Z) - XQC: Well-conditioned Optimization Accelerates Deep Reinforcement Learning [26.063477716451512]
我々は,ソフトアクター・クリティックをベースとした,よく動機付けられた,サンプル効率の高いディープアクター・クリティックアルゴリズムであるXQCを紹介する。
55のプロプリセプションと15の視覚に基づく連続制御タスクにまたがる最先端のサンプル効率を実現する。
論文 参考訳(メタデータ) (2025-09-29T17:58:53Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Online Sequence Clustering Algorithm for Video Trajectory Analysis [1.4190701053683017]
動作パターンから学習したモデルを用いて物体の挙動をリアルタイムに解析する手法を提案する。
対象物軌道の内在的反復性は、行動モデルを自動的に構築するために使用される。
このスキームは、大量の算術演算を回避しつつ、リアルタイムなオンライン学習とモーションモデルの処理を行う。
論文 参考訳(メタデータ) (2023-05-15T07:57:55Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。