論文の概要: Uncovering Latent Phase Structures and Branching Logic in Locomotion Policies: A Case Study on HalfCheetah
- arxiv url: http://arxiv.org/abs/2603.18084v1
- Date: Wed, 18 Mar 2026 08:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.751949
- Title: Uncovering Latent Phase Structures and Branching Logic in Locomotion Policies: A Case Study on HalfCheetah
- Title(参考訳): 移動政策における潜在相構造と分岐論理:ハーフチーターを事例として
- Authors: Daisuke Yasui, Toshitaka Matsuki, Hiroshi Sato,
- Abstract要約: 移動制御タスクでは、Deep Reinforcement Learningは高いパフォーマンスを示した。
しかし、学習方針の決定過程は依然としてブラックボックスであり、人間が理解することが困難である。
この研究は、移動制御のために訓練されたポリシーは、人間によって解釈される相構造を表わすかもしれないという仮説を立てた。
- 参考スコア(独自算出の注目度): 7.647276696906605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In locomotion control tasks, Deep Reinforcement Learning (DRL) has demonstrated high performance; however, the decision-making process of the learned policy remains a black box, making it difficult for humans to understand. On the other hand, in periodic motions such as walking, it is well known that implicit motion phases exist, such as the stance phase and the swing phase. Focusing on this point, this study hypothesizes that a policy trained for locomotion control may also represent a phase structure that is interpretable by humans. To examine this hypothesis in a controlled setting, we consider a locomotion task that is amenable to observing whether a policy autonomously acquires temporally structured phases through interaction with the environment. To verify this hypothesis, in the MuJoCo locomotion benchmark HalfCheetah-v5, the state transition sequences acquired by a policy trained for walking control through interaction with the environment were aggregated into semantic phases based on state similarity and consistency of subsequent transitions. As a result, we demonstrated that the state sequences generated by the trained policy exhibit periodic phase transition structures as well as phase branching. Furthermore, by approximating the states and actions corresponding to each semantic phase using Explainable Boosting Machines (EBMs), we analyzed phase-dependent decision making-namely, which state features the policy function attends to and how it controls action outputs in each phase. These results suggest that neural network-based policies, which are often regarded as black boxes, can autonomously acquire interpretable phase structures and logical branching mechanisms.
- Abstract(参考訳): 移動制御タスクでは、Deep Reinforcement Learning (DRL) は高い性能を示してきたが、学習方針の決定過程はブラックボックスのままであり、人間が理解することが困難である。
一方、歩行などの周期的な運動では、姿勢相や揺動相といった暗黙の運動相が存在することが知られている。
この点に着目して、この研究は、移動制御のために訓練されたポリシーが、人間によって解釈される相構造を表わすかもしれないという仮説を立てた。
制御された環境でこの仮説を検証するために,政策が環境との相互作用を通じて時間的構造的位相を自律的に獲得するかどうかを観察可能な移動課題を考える。
この仮説を検証するために、MuJoCoの移動ベンチマークHalfCheetah-v5において、環境との相互作用を通じて歩行制御を訓練したポリシーによって得られた状態遷移シーケンスを、状態類似性とその後の遷移の整合性に基づいてセマンティックフェーズに集約した。
その結果、訓練された政策によって生成された状態列は、周期的な位相遷移構造と位相分岐を示すことを示した。
さらに、EBM(Explainable Boosting Machines)を用いて各意味相に対応する状態と動作を近似することにより、政策関数が関与する状態と、各相における行動出力の制御方法の相依存的意思決定を解析した。
これらの結果は、しばしばブラックボックスと見なされるニューラルネットワークベースのポリシーが、解釈可能な位相構造と論理分岐機構を自律的に取得できることを示唆している。
関連論文リスト
- On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - Explainable Chain-of-Thought Reasoning: An Empirical Analysis on State-Aware Reasoning Dynamics [69.00587226225232]
本研究では,CoTトラジェクトリを構造化潜在力学に抽象化する状態認識遷移フレームワークを提案する。
推論のグローバルな構造を特徴づけるために、それらの進行をマルコフ連鎖としてモデル化する。
この抽象化は、意味的役割の識別、時間的パターンの可視化、一貫性評価など、さまざまな分析をサポートする。
論文 参考訳(メタデータ) (2025-08-29T18:53:31Z) - Concomitant Entanglement and Control Criticality Driven by Collective Measurements [0.0]
本研究では、量子多体状態が測定と条件付きユニタリ演算によって制御される適応量子回路について検討する。
我々は、2つの遷移を共に駆動するためには、集合的測定によって媒介される長距離臨界性が不可欠であると推測する。
論文 参考訳(メタデータ) (2024-09-10T18:00:03Z) - Local and nonlocal stochastic control of quantum chaos: Measurement- and control-induced criticality [0.0]
古典ベルヌーイ写像に着想を得た量子モデルの族における位相図の普遍性を位相制御の下で研究する。
量子モデルは、古典的なモデルから制御誘起相転移を継承し、また、量子設定への固有の絡み合い相転移を示す。
論文 参考訳(メタデータ) (2024-05-23T18:00:01Z) - Accessing the topological Mott insulator in cold atom quantum simulators
with realistic Rydberg dressing [58.720142291102135]
本稿では, コールド・ライドバーグ型原子を用いた光学格子の量子シミュレーションの現実的シナリオについて検討する。
本研究では, 平均場近似において, 半次および非共役充填時の位相図の詳細な解析を行う。
さらに、平均場近似における温度に対する相の安定性について検討する。
論文 参考訳(メタデータ) (2022-03-28T14:55:28Z) - Time-Dependent Dephasing and Quantum Transport [68.8204255655161]
非マルコフ的脱落促進輸送が非対称な構成でのみ現れることを示す。
制御可能で実験的に実装可能なシステムを考えると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-02-20T22:44:08Z) - Measurement-Driven Phase Transition within a Volume-Law Entangled Phase [0.0]
本研究では,非局所的かつ少数身体的ユニタリダイナミクスにおける2種類のボリュームロー絡み合い相の遷移について検討する。
一相では、有限分数は完全に絡み合った状態に属し、二相では、定常状態は広範囲に多くの有限部分系上の積状態である。
論文 参考訳(メタデータ) (2020-05-06T18:01:32Z) - Topological Phase Transitions Induced by Varying Topology and Boundaries
in the Toric Code [0.0]
このような物質相の感度を基礎となるトポロジーに対して検討する。
これらの相転移は励起空間における対称性の破れを伴うと主張する。
このような定常状態間の位相遷移は、開ループ作用素の期待値によって効果的に捕捉されることを示す。
論文 参考訳(メタデータ) (2020-04-07T18:00:06Z) - Bottom-Up Temporal Action Localization with Mutual Regularization [107.39785866001868]
TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。
学習手順を相互に規則化するための2つの規則化用語を導入する。
実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
論文 参考訳(メタデータ) (2020-02-18T03:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。