論文の概要: Dynamics Are Learned, Not Told: Semi-Supervised Discovery of Latent Dynamics Geometries For Zero-Shot Policy Adaptation
- arxiv url: http://arxiv.org/abs/2606.02280v1
- Date: Mon, 01 Jun 2026 14:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.190884
- Title: Dynamics Are Learned, Not Told: Semi-Supervised Discovery of Latent Dynamics Geometries For Zero-Shot Policy Adaptation
- Title(参考訳): ゼロショット政策適応のための潜在ダイナミクスジオメトリの半監督による発見
- Authors: Zhiming Xu, Weitao Zhou, Xianghui Pan, Nanshan Deng, Chengju Liu, Qijun Chen, Chenpeng Yao,
- Abstract要約: 実世界のダイナミクスシフトは、ロボット工学における強化学習にとって重要な課題である。
既存のほとんどのメソッドは、明確に特定された物理的パラメータを潜在コンテキストにエンコードすることに依存している。
結果中心の観点から、動的適応を再考する。
- 参考スコア(独自算出の注目度): 25.853116977213833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world dynamics shifts pose a critical challenge for reinforcement learning in robotics, as policies tightly coupled to nominal environments often fail catastrophically when physical conditions change. Most existing methods rely on encoding explicitly identified physical parameters into a latent context, a parameter-centric paradigm that depends on pre-specified axes of variation and becomes brittle under unmodeled or compound dynamics changes. We revisit dynamics adaptation from an outcome-centric perspective: rather than telling policies what the dynamics are, we enable them to learn how dynamics affect interaction outcomes. Theoretically, this is grounded in a monotonic relationship between target-domain regret and the Lipschitz constant of a trajectory dynamics encoder. Practically, this constant can be upper-bounded through contrastive learning, yielding a smooth, task-relevant latent topology without privileged dynamics information. On MuJoCo benchmarks, our method consistently outperforms parameter-centric baselines under severe dynamics shifts, including unmodeled and time-varying parameters, while also improving in-distribution stability and latent interpretability. Overall, these results validate that controlling latent geometry is a principled mechanism for robust adaptation.
- Abstract(参考訳): 実世界のダイナミクスのシフトは、ロボット工学における強化学習にとって重要な課題である。
既存のほとんどのメソッドは、明確に特定された物理的パラメータを潜在文脈に符号化することに依存しており、パラメータ中心のパラダイムは、あらかじめ特定された変動軸に依存し、非モデル化または複合力学の変化の下で不安定になる。
我々は、ダイナミックス適応を結果中心の観点から再考する: ダイナミックスが何であるかをポリシーに話すのではなく、動的スが相互作用の結果にどのように影響するかを学ぶことができる。
理論的には、これは対象領域の後悔と軌道力学エンコーダのリプシッツ定数との単調な関係にある。
実際には、この定数は対照的な学習によって上界化することができ、特権力学情報のないスムーズなタスク関連潜在トポロジーが得られる。
MuJoCoベンチマークでは,パラメータ中心のベースラインを非モデル化パラメータや時間変化パラメータなどを含む過度な動的シフト下で一貫して上回り,分散安定性や潜時的解釈性も向上する。
全体として、これらの結果は、潜在幾何学の制御がロバスト適応の原理的なメカニズムであることを証明している。
関連論文リスト
- Transformer Learning of Chaotic Collective Dynamics in Many-Body Systems [0.0]
本稿では,自己注意に基づくトランスフォーマー・フレームワークが,カオス的集団力学をモデル化するための効果的なアプローチを提供することを示す。
相互作用クエンチが強い非線形およびカオス力学を誘導する一次元半古典的ホルシュタインモデルについて検討する。
本研究は, カオス多体システムにおいて, 効果的還元力学を学習するための強力なメカニズムとして, 自己意識を確立した。
論文 参考訳(メタデータ) (2026-01-27T01:33:33Z) - Aligning Agentic World Models via Knowledgeable Experience Learning [68.85843641222186]
環境フィードバックをシンセサイザー化したWorld Knowledge Repositoryを構築するフレームワークであるWorldMindを紹介する。
WorldMindは、優れたクロスモデルとクロス環境転送性を備えたベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-19T17:33:31Z) - Analytic and Variational Stability of Deep Learning Systems [0.0]
安定性シグネチャの均一な有界性は、学習の流れに沿って散逸するリャプノフ型エネルギーの存在と等価であることを示す。
スムーズな状況下では、このフレームワークは、スペクトルノルム、アクティベーション規則性、ステップサイズ、学習速度を学習力学の収縮率にリンクする明確な安定性指数を得る。
この理論は、ReLUネットワーク、近近と近近の更新、下位のフローを含む非滑らかな学習システムにまで拡張されている。
論文 参考訳(メタデータ) (2025-12-24T14:43:59Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Forecasting Continuous Non-Conservative Dynamical Systems in SO(3) [51.510040541600176]
コンピュータビジョンにおける移動物体の回転をモデル化するための新しい手法を提案する。
我々のアプローチは、入力ノイズに対して頑健でありながら、エネルギーと運動量保存に非依存である。
トレーニング中の雑音状態から物体のダイナミクスを近似させることで、シミュレーションや様々な現実世界の設定において頑健な外挿能力が得られる。
論文 参考訳(メタデータ) (2025-08-11T09:03:10Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Overcoming Non-stationary Dynamics with Evidential Proximal Policy Optimization [11.320660946946523]
非定常環境の継続的な制御は、深層強化学習アルゴリズムの大きな課題である。
我々は、明白な批評家と政治上の強化学習を行うことが両立していることを示す。
我々は,政策評価と政策改善の段階において,明らかな不確実性定量化の不可欠な役割から,結果のアルゴリズムであるemphEvidential Proximal Policy Optimization (EPPO) を命名した。
論文 参考訳(メタデータ) (2025-03-03T12:23:07Z) - An optimization-based equilibrium measure describes non-equilibrium steady state dynamics: application to edge of chaos [2.5690340428649328]
神経力学を理解することは、機械学習、非線形物理学、神経科学において中心的なトピックである。
力学は非線形であり、特に非勾配、すなわち駆動力はポテンシャルの勾配として書けない。
論文 参考訳(メタデータ) (2024-01-18T14:25:32Z) - Dynamic Regret of Policy Optimization in Non-stationary Environments [120.01408308460095]
我々は,POWERとPOWER++の2つのモデルフリーポリシー最適化アルゴリズムを提案し,その動的後悔の保証を確立する。
我々はPOWER++が動的後悔の第2の構成要素であるPOWERよりも優れており、予測によって非定常性に積極的に適応していることを示す。
我々の知識を最大限に活用するために、我々の研究は、非定常環境におけるモデルフリーなRLアルゴリズムの、最初の動的後悔分析である。
論文 参考訳(メタデータ) (2020-06-30T23:34:37Z) - Euclideanizing Flows: Diffeomorphic Reduction for Learning Stable
Dynamical Systems [74.80320120264459]
本研究では、限られた数の人間の実演からそのような動きを学ぶためのアプローチを提案する。
複素運動は安定な力学系のロールアウトとして符号化される。
このアプローチの有効性は、確立されたベンチマーク上での検証と、現実世界のロボットシステム上で収集されたデモによって実証される。
論文 参考訳(メタデータ) (2020-05-27T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。