論文の概要: Enhancing Hierarchical Reinforcement Learning through Change Point Detection in Time Series
- arxiv url: http://arxiv.org/abs/2510.24988v1
- Date: Tue, 28 Oct 2025 21:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.799421
- Title: Enhancing Hierarchical Reinforcement Learning through Change Point Detection in Time Series
- Title(参考訳): 時系列変化点検出による階層的強化学習の強化
- Authors: Hemanath Arumugam, Falong Fan, Bo Liu,
- Abstract要約: 本稿では、自己教師型トランスフォーマーベースの変更点検出(CPD)モジュールをOption-Criticフレームワークに統合する新しいアーキテクチャを提案する。
CPDモジュールは、内在的な信号から派生した擬似ラベルを用いて、外部監視なしで環境ダイナミクスの潜伏シフトを推測する訓練を行う。
フォー・ルームとピンボール・タスクの実験では、PD誘導剤は加速収束、累積リターンの向上、オプション特殊化の大幅な改善を示す。
- 参考スコア(独自算出の注目度): 2.5895291094206825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Reinforcement Learning (HRL) enhances the scalability of decision-making in long-horizon tasks by introducing temporal abstraction through options-policies that span multiple timesteps. Despite its theoretical appeal, the practical implementation of HRL suffers from the challenge of autonomously discovering semantically meaningful subgoals and learning optimal option termination boundaries. This paper introduces a novel architecture that integrates a self-supervised, Transformer-based Change Point Detection (CPD) module into the Option-Critic framework, enabling adaptive segmentation of state trajectories and the discovery of options. The CPD module is trained using heuristic pseudo-labels derived from intrinsic signals to infer latent shifts in environment dynamics without external supervision. These inferred change-points are leveraged in three critical ways: (i) to serve as supervisory signals for stabilizing termination function gradients, (ii) to pretrain intra-option policies via segment-wise behavioral cloning, and (iii) to enforce functional specialization through inter-option divergence penalties over CPD-defined state partitions. The overall optimization objective enhances the standard actor-critic loss using structure-aware auxiliary losses. In our framework, option discovery arises naturally as CPD-defined trajectory segments are mapped to distinct intra-option policies, enabling the agent to autonomously partition its behavior into reusable, semantically meaningful skills. Experiments on the Four-Rooms and Pinball tasks demonstrate that CPD-guided agents exhibit accelerated convergence, higher cumulative returns, and significantly improved option specialization. These findings confirm that integrating structural priors via change-point segmentation leads to more interpretable, sample-efficient, and robust hierarchical policies in complex environments.
- Abstract(参考訳): 階層強化学習(Hierarchical Reinforcement Learning, HRL)は、複数の時間ステップにまたがるオプション政治を通じて、時間的抽象を導入することで、長期的タスクにおける意思決定のスケーラビリティを高める。
その理論的魅力にもかかわらず、HRLの実践的実装は意味論的に意味のあるサブゴールを自律的に発見し、最適なオプション終了境界を学習するという課題に悩まされている。
本稿では、自己教師型トランスフォーマーベースの変更点検出(CPD)モジュールをOption-Criticフレームワークに統合し、状態軌跡の適応的セグメンテーションとオプションの発見を可能にする新しいアーキテクチャを提案する。
CPDモジュールは、内在的な信号から派生したヒューリスティックな擬似ラベルを用いて、外部の監督なしに環境ダイナミクスの潜伏シフトを推測する訓練を行う。
これらの推論された変更ポイントは、3つの重要な方法で活用されます。
一 終了関数勾配の安定化のための監督信号として機能すること。
(二)セグメントワイド行動クローンによるオプション内政策の事前訓練、及び
3) CPD定義状態分割に対するオプション間分散罰による機能特化を実施すること。
全体的な最適化の目的は、構造認識による補助的損失を用いたアクター・批評家の標準的な損失を高めることである。
我々のフレームワークでは、オプション発見が自然に起こるのは、PD定義された軌道セグメントが個別のオプション内ポリシーにマッピングされるためであり、エージェントはその振る舞いを再利用可能な意味的なスキルに自律的に分割することができる。
フォー・ルームとピンボール・タスクの実験では、PD誘導剤は加速収束、累積リターンの向上、オプション特殊化の大幅な改善を示す。
これらの結果から, 複雑な環境において, 構造的先行性の統合は, より解釈可能で, サンプル効率, 堅牢な階層的政策をもたらすことが確認された。
関連論文リスト
- TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。
TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。
実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2025-10-01T10:21:18Z) - Feature-Space Planes Searcher: A Universal Domain Adaptation Framework for Interpretability and Computational Efficiency [7.889121135601528]
現在の教師なし領域適応法は微調整特徴抽出器に依存している。
領域適応フレームワークとしてFPS(Feature-space Planes Searcher)を提案する。
FPSは最先端の手法と比較して,競争力や性能に優れることを示す。
論文 参考訳(メタデータ) (2025-08-26T05:39:21Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - On the Convergence of DP-SGD with Adaptive Clipping [56.24689348875711]
勾配クリッピングによるグラディエントDescentは、微分プライベート最適化を実現するための強力な技術である。
本稿では,量子クリッピング(QC-SGD)を用いたSGDの総合収束解析について述べる。
本稿では,QC-SGDが一定閾値クリッピングSGDに類似したバイアス問題にどのように悩まされているかを示す。
論文 参考訳(メタデータ) (2024-12-27T20:29:47Z) - Exploring Test-Time Adaptation for Object Detection in Continually Changing Environments [20.307151769610087]
連続的テスト時間適応(CTTA)は、目標ドメインを継続的に変更するソーストレーニングモデルに徐々に適応する、有望な手法として登場した。
我々は3つのコアコンポーネントを特徴とするAMRODについて,CTTAシナリオにおける検出モデルに対するこれらの課題に対処する。
我々は,AMRODが既存の方法よりも優れている4つのCTTAオブジェクト検出タスクにおいて,AMRODの有効性を実証する。
論文 参考訳(メタデータ) (2024-06-24T08:30:03Z) - Continual Model-based Reinforcement Learning for Data Efficient Wireless Network Optimisation [73.04087903322237]
制御ポリシの継続強化学習としてスループット最適化を定式化する。
シミュレーションの結果,提案システムでは,エンド・ツー・エンドのデプロイメントのリードタイムを2倍に短縮できることがわかった。
論文 参考訳(メタデータ) (2024-04-30T11:23:31Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - Data Augmentation through Expert-guided Symmetry Detection to Improve
Performance in Offline Reinforcement Learning [0.0]
マルコフ決定過程(MDP)の動的モデルのオフライン推定は非自明な作業である。
近年の研究では、密度推定法に依存する専門家誘導パイプラインが、決定論的環境において、この構造を効果的に検出できることが示されている。
学習したMDPを解き、実際の環境に最適化されたポリシーを適用すると、前者の結果が性能改善につながることを示す。
論文 参考訳(メタデータ) (2021-12-18T14:32:32Z) - The Gradient Convergence Bound of Federated Multi-Agent Reinforcement
Learning with Efficient Communication [20.891460617583302]
連立学習パラダイムにおける協調的意思決定のための独立強化学習(IRL)の検討
FLはエージェントとリモート中央サーバ間の過剰な通信オーバーヘッドを生成する。
本稿では,システムの実用性向上のための2つの高度な最適化手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T07:21:43Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。