論文の概要: A Loss Landscape Visualization Framework for Interpreting Reinforcement Learning: An ADHDP Case Study
- arxiv url: http://arxiv.org/abs/2603.14600v1
- Date: Sun, 15 Mar 2026 20:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.910668
- Title: A Loss Landscape Visualization Framework for Interpreting Reinforcement Learning: An ADHDP Case Study
- Title(参考訳): 強化学習の解釈のためのランドスケープ可視化フレームワーク:ADHDPのケーススタディ
- Authors: Jingyi Liu, Jian Guo, Eberhard Gill,
- Abstract要約: 強化学習アルゴリズムは、動的および制御システムで広く使われている。
本研究では,この手法を学習力学の多視点ビューを提供するフレームワークに拡張する。
このフレームワークは、ADHDPのバリエーションを比較するために適用され、トレーニングスタビライザとターゲット更新が最適化の状況をどのように変えるかを示している。
- 参考スコア(独自算出の注目度): 12.940253083606066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms have been widely used in dynamic and control systems. However, interpreting their internal learning behavior remains a challenge. In the authors' previous work, a critic match loss landscape visualization method was proposed to study critic training. This study extends that method into a framework which provides a multi-perspective view of the learning dynamics, clarifying how value estimation, policy optimization, and temporal-difference (TD) signals interact during training. The proposed framework includes four complementary components; a three-dimensional reconstruction of the critic match loss surface that shows how TD targets shape the optimization geometry; an actor loss landscape under a frozen critic that reveals how the policy exploits that geometry; a trajectory combining time, Bellman error, and policy weights that indicates how updates move across the surface; and a state-TD map that identifies the state regions that drive those updates. The Action-Dependent Heuristic Dynamic Programming (ADHDP) algorithm for spacecraft attitude control is used as a case study. The framework is applied to compare several ADHDP variants and shows how training stabilizers and target updates change the optimization landscape and affect learning stability. Therefore, the proposed framework provides a systematic and interpretable tool for analyzing reinforcement learning behavior across algorithmic designs.
- Abstract(参考訳): 強化学習アルゴリズムは、動的および制御システムで広く使われている。
しかし、内部学習行動の解釈は依然として課題である。
筆者らによる以前の研究では、批評家のトレーニングを研究するために、批評家のマッチング損失ランドスケープ可視化手法が提案された。
本研究では,この手法を学習力学の多視点的ビューを提供するフレームワークに拡張し,評価値の推定,政策最適化,時間差信号(TD)が学習中にどのように作用するかを明らかにする。
提案するフレームワークは,4つの補完的コンポーネントで構成され,TDターゲットが最適化幾何学をどのように形作るかを示す批評家マッチング損失面の3次元再構成,その幾何学をどのように活用するかを示すフリーズ批評家のアクター損失景観,その更新を曲面上でどのように移動するかを示す軌道結合時間,ベルマン誤差,および状態-TDマップである。
宇宙船姿勢制御のためのAction-Dependent Heuristic Dynamic Programming (ADHDP)アルゴリズムをケーススタディとして用いた。
このフレームワークは、ADHDPのいくつかの変種を比較するために適用され、トレーニングスタビライザとターゲット更新が最適化ランドスケープをどのように変化させ、学習安定性に影響を及ぼすかを示している。
そこで提案するフレームワークは,アルゴリズム設計における強化学習の振る舞いを解析するための,体系的かつ解釈可能なツールを提供する。
関連論文リスト
- Adapting Critic Match Loss Landscape Visualization to Off-policy Reinforcement Learning [12.940253083606066]
本研究は、オンラインから外部強化学習(RL)まで、確立された批評家一致損失景観可視化手法を拡張した。
Off-policy RLは、リプレイベースのデータフローとターゲット計算において、段階的にオンラインアクター批判学習とは異なる。
その結果、適応型批評家マッチング損失可視化フレームワークは、批評家最適化力学を解析するための幾何学的診断ツールとして機能することを示した。
論文 参考訳(メタデータ) (2026-03-15T20:21:22Z) - Visualizing Critic Match Loss Landscapes for Interpretation of Online Reinforcement Learning Control Algorithms [12.940253083606066]
本研究は,オンライン強化学習のための批評家マッチング損失ランドスケープ可視化手法を提案する。
記録された批判パラメータの軌跡を低次元線形部分空間に投影することにより、損失景観を構築する。
批判的学習行動を特徴付ける2次元最適化パスとともに、3次元の損失面を生成する。
論文 参考訳(メタデータ) (2026-03-15T18:20:12Z) - \textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。
textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。
実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文 参考訳(メタデータ) (2026-01-26T06:16:17Z) - Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。
我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。
アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文 参考訳(メタデータ) (2025-10-14T03:03:08Z) - Online Reinforcement Learning-Based Dynamic Adaptive Evaluation Function for Real-Time Strategy Tasks [5.115170525117103]
リアルタイム戦略タスクの効果的な評価には、動的で予測不可能な環境に対処するための適応的なメカニズムが必要である。
本研究では,戦場状況変化に対するリアルタイム応答性評価機能の改善手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T14:36:33Z) - Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。
動的環境のための新しいSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T09:35:48Z) - Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking [37.186306646752975]
マルチビュー3次元検出・追跡タスクのための統合オブジェクト認識時間学習フレームワークを提案する。
提案モデルでは,異なる設計のベースラインよりも一貫した性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-03T16:10:19Z) - Relational Object-Centric Actor-Critic [44.99833362998488]
近年の研究では、アンタングルオブジェクト表現は、イメージベースでオブジェクト中心の強化学習タスクにおけるポリシー学習に役立つことが強調されている。
本稿では,アクタ批判的アプローチとモデルに基づくアプローチを統合した,オブジェクト中心強化学習アルゴリズムを提案する。
シミュレーションされた3次元ロボット環境と構成構造を持つ2次元環境において,本手法の評価を行った。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。