論文の概要: Symplectic Inductive Bias for Data-Driven Target Reachability in Hamiltonian Systems
- arxiv url: http://arxiv.org/abs/2604.17213v1
- Date: Sun, 19 Apr 2026 02:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.39517
- Title: Symplectic Inductive Bias for Data-Driven Target Reachability in Hamiltonian Systems
- Title(参考訳): ハミルトン系におけるデータ駆動的目標到達性のためのシンプレクティックインダクティブバイアス
- Authors: Zhuo Ouyang, Jixian Liu, Enrique Mallada,
- Abstract要約: 我々は、自然に埋め込まれた帰納的バイアスを利用して、データ効率の悪い非線形制御を要求することを論じる。
我々は、目標到達可能性問題を解決するために、シンプレクティック幾何とエネルギー準位集合の内在的再発を用いる。
- 参考スコア(独自算出の注目度): 4.2362795292551025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inductive bias refers to restrictions on the hypothesis class that enable a learning method to generalize effectively from limited data. A canonical example in control is linearity, which underpins low sample-complexity guarantees for stabilization and optimal control. For general nonlinear dynamics, by contrast, guarantees often rely on smoothness assumptions (e.g., Lipschitz continuity) which, when combined with covering arguments, can lead to data requirements that grow exponentially with the ambient dimension. In this paper we argue that data-efficient nonlinear control demands exploiting inductive bias embedded in nature itself, namely, structure imposed by physical laws. Focusing on Hamiltonian systems, we leverage symplectic geometry and intrinsic recurrence on energy level sets to solve target reachability problems. Our approach combines the recurrence property with a recently proposed class of policies, called chain policies, which composes locally certified trajectory segments extracted from demonstrations to achieve target reachability. We provide sufficient conditions for reachability under this construction and show that the resulting data requirements depend on explicit geometric and recurrence properties of the Hamiltonian rather than the state dimension.
- Abstract(参考訳): 帰納バイアス(英: Inductive bias)とは、学習法が限られたデータから効果的に一般化できる仮説クラス上の制約を指す。
制御における標準的な例は線形性であり、安定化と最適制御に対する低いサンプル複雑性の保証を支えている。
対照的に、一般的な非線形力学では、保証はしばしば滑らかさの仮定(例えば、リプシッツの連続性)に依存している。
本稿では,自然に埋め込まれた帰納的バイアス,すなわち物理法則によって課される構造を利用したデータ効率のよい非線形制御の必要性を論じる。
ハミルトン系に着目して、エネルギー準位集合上のシンプレクティック幾何と固有再帰を利用して目標到達可能性問題を解決する。
提案手法は, 実演から抽出された局所的な軌道セグメントを構成するチェインポリシーと呼ばれる, 最近提案されたポリシーと組み合わせて, 目標到達性を実現する。
この構成の下では、到達可能性に十分な条件を提供し、結果のデータ要求が状態次元ではなく、ハミルトニアンの明示的な幾何学的および反復的な性質に依存することを示す。
関連論文リスト
- KoopGen: Koopman Generator Networks for Representing and Predicting Dynamical Systems with Continuous Spectra [65.11254608352982]
生成元をベースとしたニューラル・クープマン・フレームワークを導入し,構造的かつ状態に依存したクープマン・ジェネレータの表現を通じて動的にモデル化する。
固有のカルテス分解をスキュー結合および自己結合成分に利用することにより、KoopGenは可逆的な散逸から保守的な輸送を分離する。
論文 参考訳(メタデータ) (2026-02-15T06:32:23Z) - Adaptive Neighborhood-Constrained Q Learning for Offline Reinforcement Learning [52.03884701766989]
オフライン強化学習(RL)アルゴリズムは、通常、アクション選択に制約を課す。
本稿では,Bellmanターゲットにおける行動選択を,データセットアクションの近傍の結合に制限する新しい地区制約を提案する。
我々は,この制約を満たす目標動作を用いてQ学習を行うための,単純で効果的なアルゴリズムであるAdaptive Neighborhood-Constrained Q Learning(ANQ)を開発した。
論文 参考訳(メタデータ) (2025-11-04T13:42:05Z) - An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model [8.95720650633184]
機械学習において、動的選択(DDC)モデル(オフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL))を推定する問題について検討する。
目的は、オフラインの振舞いデータからエージェントの振舞いを管理する$Q*$関数をリカバリすることである。
線形パラメータ化報酬の制限的仮定を使わずにこれらの問題を解くための大域収束勾配法を提案する。
論文 参考訳(メタデータ) (2025-02-19T22:22:20Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Towards Understanding Generalization via Decomposing Excess Risk
Dynamics [13.4379473119565]
一般化力学を解析してアルゴリズム依存境界(安定性など)を導出する。
ニューラルネットは、ノイズの嵌合時に緩やかな収束率を示すという観測から着想を得て、余剰リスクダイナミクスを分解することを提案する。
分解の枠組みの下では、新しい境界は安定性に基づく境界と一様収束境界よりも理論的および経験的証拠とよく一致している。
論文 参考訳(メタデータ) (2021-06-11T03:42:45Z) - On the Stability of Nonlinear Receding Horizon Control: A Geometric
Perspective [72.7951562665449]
産業における非線形回帰制御(RHC)戦略の広範な採用には30年以上がかかる。
本稿では,グローバル・ジオメトリの役割を理解するための第一歩として,グローバル・ベース・コントロールの役割について述べる。
論文 参考訳(メタデータ) (2021-03-27T22:59:37Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - What are the Statistical Limits of Offline RL with Linear Function
Approximation? [70.33301077240763]
オフライン強化学習は、オフライン(観測的)データを活用して、シーケンシャルな意思決定戦略の学習を導く。
本研究は,提案可能なサンプル効率のオフライン強化学習を可能にする表現条件と分布条件の基本的な問題に焦点を当てる。
論文 参考訳(メタデータ) (2020-10-22T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。