論文の概要: Adapting Critic Match Loss Landscape Visualization to Off-policy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.14589v1
- Date: Sun, 15 Mar 2026 20:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.904131
- Title: Adapting Critic Match Loss Landscape Visualization to Off-policy Reinforcement Learning
- Title(参考訳): 批判的マッチングがランドスケープの可視化を損なう場合のオフ・ポリティクス強化学習への適応
- Authors: Jingyi Liu, Jian Guo, Eberhard Gill,
- Abstract要約: 本研究は、オンラインから外部強化学習(RL)まで、確立された批評家一致損失景観可視化手法を拡張した。
Off-policy RLは、リプレイベースのデータフローとターゲット計算において、段階的にオンラインアクター批判学習とは異なる。
その結果、適応型批評家マッチング損失可視化フレームワークは、批評家最適化力学を解析するための幾何学的診断ツールとして機能することを示した。
- 参考スコア(独自算出の注目度): 12.940253083606066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work extends an established critic match loss landscape visualization method from online to off-policy reinforcement learning (RL), aiming to reveal the optimization geometry behind critic learning. Off-policy RL differs from stepwise online actor-critic learning in its replay-based data flow and target computation. Based on these two structural differences, the critic match loss landscape visualization method is adapted to the Soft Actor-Critic (SAC) algorithm by aligning the loss evaluation with its batch-based data flow and target computation, using a fixed replay batch and precomputed critic targets from the selected policy. Critic parameters recorded during training are projected onto a principal component plane, where the critic match loss is evaluated to form a 3-D landscape with an overlaid 2-D optimization path. Applied to a spacecraft attitude control problem, the resulting landscapes are analyzed both qualitatively and quantitatively using sharpness, basin area, and local anisotropy metrics, together with temporal landscape snapshots. Comparisons between convergent SAC, divergent SAC, and divergent Action-Dependent Heuristic Dynamic Programming (ADHDP) cases reveal distinct geometric patterns and optimization behaviors under different algorithmic structures. The results demonstrate that the adapted critic match loss visualization framework serves as a geometric diagnostic tool for analyzing critic optimization dynamics in replay-based off-policy RL-based control problems.
- Abstract(参考訳): 本研究は, 批判学習の背景にある最適化手法を明らかにすることを目的とした, オンラインから外部強化学習(RL)まで, 確立された批評家マッチング損失景観可視化手法を拡張した。
Off-policy RLは、リプレイベースのデータフローとターゲット計算において、段階的にオンラインアクター批判学習とは異なる。
これら2つの構造的差異に基づき, 評価結果をバッチベースのデータフローとターゲット計算に整合させ, 選択したポリシーから, 所定のリプレイバッチと事前計算した批評家ターゲットを用いて, ソフトアクタ・クリティカル(SAC)アルゴリズムに適応する。
トレーニング中に記録された批判パラメータを主成分面に投影し、評論家マッチング損失を評価し、オーバーレイド2次元最適化パスを備えた3次元ランドスケープを形成する。
宇宙船の姿勢制御問題に適用し、得られた景観を時間的景観スナップショットとともに、鋭さ、盆地面積、および局所異方性メトリクスを用いて定性的かつ定量的に解析する。
収束SAC、発散SAC、発散Action-Dependent Heuristic Dynamic Programming(ADHDP)のケースの比較により、異なるアルゴリズム構造下での異なる幾何学的パターンと最適化挙動が明らかとなった。
その結果, 適応型批評家一致損失可視化フレームワークは, リプレイ型オフポリチィRL制御問題において, 批判最適化のダイナミクスを解析するための幾何学的診断ツールとして機能することが示された。
関連論文リスト
- A Loss Landscape Visualization Framework for Interpreting Reinforcement Learning: An ADHDP Case Study [12.940253083606066]
強化学習アルゴリズムは、動的および制御システムで広く使われている。
本研究では,この手法を学習力学の多視点ビューを提供するフレームワークに拡張する。
このフレームワークは、ADHDPのバリエーションを比較するために適用され、トレーニングスタビライザとターゲット更新が最適化の状況をどのように変えるかを示している。
論文 参考訳(メタデータ) (2026-03-15T20:47:30Z) - Visualizing Critic Match Loss Landscapes for Interpretation of Online Reinforcement Learning Control Algorithms [12.940253083606066]
本研究は,オンライン強化学習のための批評家マッチング損失ランドスケープ可視化手法を提案する。
記録された批判パラメータの軌跡を低次元線形部分空間に投影することにより、損失景観を構築する。
批判的学習行動を特徴付ける2次元最適化パスとともに、3次元の損失面を生成する。
論文 参考訳(メタデータ) (2026-03-15T18:20:12Z) - Implicit Neural Representation-Based Continuous Single Image Super Resolution: An Empirical Study [50.15623093332659]
入射神経表現(INR)は任意のスケール画像超解像(ASSR)の標準的アプローチとなっている
既存の手法を多様な設定で比較し、複数の画像品質指標に対して集計結果を示す。
トレーニング中, エッジ, テクスチャ, 細部を保存しながら, 強度変化をペナライズする新たな損失関数について検討した。
論文 参考訳(メタデータ) (2026-01-25T07:09:20Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Gradient constrained sharpness-aware prompt learning for vision-language
models [99.74832984957025]
本稿では,視覚言語モデル(VLM)の一般化可能な即時学習における新たなトレードオフ問題を提案する。
最先端手法のロスランドスケープとSAMに基づくバニラシャープネス認識最小化法を解析することにより、トレードオフ性能は損失値と損失シャープネスの両方に相関していると結論付けた。
本稿では,GCSCoOp (Gradient Constrained Sharpness-Aware Context Optimization) と表記される,素早い学習のためのSAMベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-14T17:13:54Z) - 3D Video Object Detection with Learnable Object-Centric Global
Optimization [65.68977894460222]
対応性に基づく最適化は3次元シーン再構成の基盤となるが、3次元ビデオオブジェクト検出では研究されていない。
オブジェクト中心の時間対応学習と特徴量付きオブジェクトバンドル調整を備えた、エンドツーエンドで最適化可能なオブジェクト検出器であるBA-Detを提案する。
論文 参考訳(メタデータ) (2023-03-27T17:39:39Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Online Meta-Critic Learning for Off-Policy Actor-Critic Methods [107.98781730288897]
Off-Policy Actor-Critic (Off-PAC)法は、様々な連続制御タスクで成功している。
本稿では,学習過程を観察し,アクターにさらなる損失を与える新しい,フレキシブルなメタクリティカルを導入する。
論文 参考訳(メタデータ) (2020-03-11T14:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。