論文の概要: Zero-Shot Policy Transfer in Reinforcement Learning using Buckingham's Pi Theorem
- arxiv url: http://arxiv.org/abs/2510.08768v1
- Date: Thu, 09 Oct 2025 19:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.606924
- Title: Zero-Shot Policy Transfer in Reinforcement Learning using Buckingham's Pi Theorem
- Title(参考訳): バッキンガムのPi理論を用いた強化学習におけるゼロショット政策伝達
- Authors: Francisco Pascoa, Ian Lalonde, Alexandre Girard,
- Abstract要約: 強化学習ポリシーは、しばしば、新しいロボット、タスク、または異なる物理的パラメータを持つ環境への一般化に失敗する。
本稿では,バッキンガムのPi理論に基づくシンプルなゼロショット転送手法を提案する。
- 参考スコア(独自算出の注目度): 42.37643072381109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) policies often fail to generalize to new robots, tasks, or environments with different physical parameters, a challenge that limits their real-world applicability. This paper presents a simple, zero-shot transfer method based on Buckingham's Pi Theorem to address this limitation. The method adapts a pre-trained policy to new system contexts by scaling its inputs (observations) and outputs (actions) through a dimensionless space, requiring no retraining. The approach is evaluated against a naive transfer baseline across three environments of increasing complexity: a simulated pendulum, a physical pendulum for sim-to-real validation, and the high-dimensional HalfCheetah. Results demonstrate that the scaled transfer exhibits no loss of performance on dynamically similar contexts. Furthermore, on non-similar contexts, the scaled policy consistently outperforms the naive transfer, significantly expanding the volume of contexts where the original policy remains effective. These findings demonstrate that dimensional analysis provides a powerful and practical tool to enhance the robustness and generalization of RL policies.
- Abstract(参考訳): 強化学習(RL)ポリシーは、しばしば新しいロボット、タスク、または異なる物理パラメータを持つ環境への一般化に失敗する。
本稿では,バッキンガムのPi理論に基づくシンプルなゼロショット転送手法を提案する。
この方法は、事前訓練されたポリシーを新しいシステムコンテキストに適用し、入力(観測)をスケーリングし、非次元空間を通して(動作)を出力し、再トレーニングを必要としない。
この手法は,シミュレーション振り子,シミュレート・トゥ・リアル検証のための物理振り子,高次元HalfCheetahの3つの環境にまたがるナイーブ転送ベースラインに対して評価される。
その結果, 動的に類似した状況下では, スケールドトランスファーは性能の低下を示さないことがわかった。
さらに、非類似の文脈では、スケールされたポリシーはナイーブ・トランスファーを一貫して上回り、元のポリシーが有効であり続けるコンテキストのボリュームを著しく拡大する。
これらの結果は,RLポリシーの堅牢性と一般化を高めるために,次元解析が強力かつ実用的なツールを提供することを示している。
関連論文リスト
- Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
無線ネットワークにおける自己回帰的マルコフ音源のリアルタイムサンプリングと推定について検討する。
政策最適化のためのグラフィカル強化学習フレームワークを提案する。
理論的には、提案したポリシーは転送可能であり、あるグラフ上で訓練されたポリシーを構造的に類似したグラフに効果的に適用することができる。
論文 参考訳(メタデータ) (2026-01-19T02:18:45Z) - Balance Equation-based Distributionally Robust Offline Imitation Learning [8.607736795429638]
イミテーション・ラーニング(IL)は、報酬関数や明示的なコントローラを手動で設計するロボットや制御タスクに非常に効果的であることが証明されている。
標準のILメソッドは、トレーニングとデプロイメントの間に環境のダイナミクスが固定されていると暗黙的に仮定します。
バランス方程式に基づく分散ロバストオフライン学習を通じてこの問題に対処する。
不確実な遷移モデルの集合に対する分布論的にロバストな最適化としてこの問題を定式化し、最悪の遷移分布の下での模倣損失を最小限に抑える政策を求める。
論文 参考訳(メタデータ) (2025-11-11T07:48:09Z) - Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Maximum Total Correlation Reinforcement Learning [23.209609715886454]
誘導軌道内の全相関を最大化する強化学習問題を修正した。
シミュレーションロボット環境において,本手法は周期的かつ圧縮的な軌道を誘導するポリシーを自然に生成する。
論文 参考訳(メタデータ) (2025-05-22T14:48:00Z) - Post-Convergence Sim-to-Real Policy Transfer: A Principled Alternative to Cherry-Picking [5.027571997864706]
本稿では,最短ケースの性能伝達最適化手法を導入することで,コンバージェンス後のsim-to-real転送問題に対処する。
実験は、シミュレーションから実世界の実験室にRLに基づく移動ポリシーを移すことの有効性を実証した。
論文 参考訳(メタデータ) (2025-04-21T19:48:05Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。