論文の概要: Unraveling the Hidden Dynamical Structure in Recurrent Neural Policies
- arxiv url: http://arxiv.org/abs/2602.01196v1
- Date: Sun, 01 Feb 2026 12:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.655237
- Title: Unraveling the Hidden Dynamical Structure in Recurrent Neural Policies
- Title(参考訳): リカレントニューラルネットワークにおける隠れた動的構造の解明
- Authors: Jin Li, Yue Wu, Mengsha Huang, Yuhao Sun, Hao He, Xianyuan Zhan,
- Abstract要約: リカレントニューラルポリシーは、部分的に観察可能な制御やメタRLタスクで広く使われている。
安定な循環構造は環境との相互作用の間に常に現れる。
これらの知見は、リカレントポリシーの多くの優れた特性を説明するために、新しい視点を提供する。
- 参考スコア(独自算出の注目度): 26.411234883034407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent neural policies are widely used in partially observable control and meta-RL tasks. Their abilities to maintain internal memory and adapt quickly to unseen scenarios have offered them unparalleled performance when compared to non-recurrent counterparts. However, until today, the underlying mechanisms for their superior generalization and robustness performance remain poorly understood. In this study, by analyzing the hidden state domain of recurrent policies learned over a diverse set of training methods, model architectures, and tasks, we find that stable cyclic structures consistently emerge during interaction with the environment. Such cyclic structures share a remarkable similarity with \textit{limit cycles} in dynamical system analysis, if we consider the policy and the environment as a joint hybrid dynamical system. Moreover, we uncover that the geometry of such limit cycles also has a structured correspondence with the policies' behaviors. These findings offer new perspectives to explain many nice properties of recurrent policies: the emergence of limit cycles stabilizes both the policies' internal memory and the task-relevant environmental states, while suppressing nuisance variability arising from environmental uncertainty; the geometry of limit cycles also encodes relational structures of behaviors, facilitating easier skill adaptation when facing non-stationary environments.
- Abstract(参考訳): リカレントニューラルポリシーは、部分的に観察可能な制御やメタRLタスクで広く使われている。
内部メモリを保守し、目に見えないシナリオに迅速に適応する能力は、非リカレントなシナリオと比較して、非並列的なパフォーマンスを提供する。
しかし、今日まで、それらの優れた一般化とロバスト性性能の基盤となるメカニズムはよく理解されていない。
本研究では, 多様な学習手法, モデルアーキテクチャ, タスクを用いて学習した繰り返しポリシーの隠れ状態領域を解析することにより, 環境との相互作用中に安定した循環構造が常に現れることを示す。
このような循環構造は、ポリシーと環境を連立ハイブリッド力学系として考えると、力学系解析において \textit{limit cycles} と顕著に類似している。
さらに、このような制限サイクルの幾何学が、政策の行動と構造化された対応を持つことも明らかにした。
制限サイクルの出現は、ポリシーの内部記憶とタスク関連環境状態の両方を安定化させると同時に、環境の不確実性に起因するニュアンス変動を抑制するとともに、制限サイクルの幾何学は行動のリレーショナル構造を符号化し、非定常環境に直面する際のスキル適応を容易にする。
関連論文リスト
- Memory as Structured Trajectories: Persistent Homology and Contextual Sheaves [5.234742752529437]
本稿では,メモリをスパースなトポロジカルなアトラクタの集合として形式化するデルタホモロジーのアナロジーを導入する。
ディラックデルタのような記憶トレースは、認知状態の潜在多様体上の非自明なホモロジー生成器と同一視される。
我々はこれらのデルタホモロジー生成体を低エントロピー量変数と解釈し、高エントロピー文脈変数は濾過、コホモロジークラス、あるいは層として二重に表現する。
論文 参考訳(メタデータ) (2025-08-01T23:03:13Z) - Generative System Dynamics in Recurrent Neural Networks [56.958984970518564]
リカレントニューラルネットワーク(RNN)の連続時間ダイナミクスについて検討する。
線形および非線形構成の両方において安定な極限サイクルを実現するためには,スキュー対称性の重み行列が基本であることを示す。
数値シミュレーションは、非線形活性化関数が極限周期を維持するだけでなく、システム統合プロセスの数値安定性を高めることを示す。
論文 参考訳(メタデータ) (2025-04-16T10:39:43Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - What is Memory? A Homological Perspective [6.0044467881527614]
メモリのデルタホモロジーモデルを導入し、サイクル閉鎖からリコール、学習、予測を発生させる。
ディラックのようなメモリトレースは、スパースで既約の誘引子を表す非自明なホモロジージェネレータに対応する。
我々は、このメカニズムを、高エントロピー文脈変数と低エントロピー内容変数との結合不確実性を最小化する、コンテキスト-コンテンツ不確実性原理(CCUP)によって定式化する。
論文 参考訳(メタデータ) (2023-03-07T19:47:01Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - Dynamics-Adaptive Continual Reinforcement Learning via Progressive
Contextualization [29.61829620717385]
動的環境におけるCRL(Continuous reinforcement Learning)の鍵となる課題は、環境が生涯にわたって変化するにつれて、RLエージェントの挙動を迅速に適応させることである。
DaCoRLは、進行的文脈化を用いた文脈条件付きポリシーを学習する。
DaCoRLは、安定性、全体的な性能、一般化能力の観点から、既存の方法よりも一貫した優位性を特徴としている。
論文 参考訳(メタデータ) (2022-09-01T10:26:58Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。