論文の概要: Zero-Shot Policy Transfer in Reinforcement Learning using Buckingham's Pi Theorem
- arxiv url: http://arxiv.org/abs/2510.08768v1
- Date: Thu, 09 Oct 2025 19:36:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.606924
- Title: Zero-Shot Policy Transfer in Reinforcement Learning using Buckingham's Pi Theorem
- Title(参考訳): バッキンガムのPi理論を用いた強化学習におけるゼロショット政策伝達
- Authors: Francisco Pascoa, Ian Lalonde, Alexandre Girard,
- Abstract要約: 強化学習ポリシーは、しばしば、新しいロボット、タスク、または異なる物理的パラメータを持つ環境への一般化に失敗する。
本稿では,バッキンガムのPi理論に基づくシンプルなゼロショット転送手法を提案する。
- 参考スコア(独自算出の注目度): 42.37643072381109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) policies often fail to generalize to new robots, tasks, or environments with different physical parameters, a challenge that limits their real-world applicability. This paper presents a simple, zero-shot transfer method based on Buckingham's Pi Theorem to address this limitation. The method adapts a pre-trained policy to new system contexts by scaling its inputs (observations) and outputs (actions) through a dimensionless space, requiring no retraining. The approach is evaluated against a naive transfer baseline across three environments of increasing complexity: a simulated pendulum, a physical pendulum for sim-to-real validation, and the high-dimensional HalfCheetah. Results demonstrate that the scaled transfer exhibits no loss of performance on dynamically similar contexts. Furthermore, on non-similar contexts, the scaled policy consistently outperforms the naive transfer, significantly expanding the volume of contexts where the original policy remains effective. These findings demonstrate that dimensional analysis provides a powerful and practical tool to enhance the robustness and generalization of RL policies.
- Abstract(参考訳): 強化学習(RL)ポリシーは、しばしば新しいロボット、タスク、または異なる物理パラメータを持つ環境への一般化に失敗する。
本稿では,バッキンガムのPi理論に基づくシンプルなゼロショット転送手法を提案する。
この方法は、事前訓練されたポリシーを新しいシステムコンテキストに適用し、入力(観測)をスケーリングし、非次元空間を通して(動作)を出力し、再トレーニングを必要としない。
この手法は,シミュレーション振り子,シミュレート・トゥ・リアル検証のための物理振り子,高次元HalfCheetahの3つの環境にまたがるナイーブ転送ベースラインに対して評価される。
その結果, 動的に類似した状況下では, スケールドトランスファーは性能の低下を示さないことがわかった。
さらに、非類似の文脈では、スケールされたポリシーはナイーブ・トランスファーを一貫して上回り、元のポリシーが有効であり続けるコンテキストのボリュームを著しく拡大する。
これらの結果は,RLポリシーの堅牢性と一般化を高めるために,次元解析が強力かつ実用的なツールを提供することを示している。
関連論文リスト
- Dynamic Manipulation of Deformable Objects in 3D: Simulation, Benchmark and Learning Strategy [88.8665000676562]
従来の手法は、しばしば問題を低速または2D設定に単純化し、現実の3Dタスクに適用性を制限する。
データ不足を軽減するため、新しいシミュレーションフレームワークと、低次ダイナミクスに基づくベンチマークを導入する。
本研究では,シミュレーション前トレーニングと物理インフォームドテスト時間適応を統合するフレームワークであるDynamics Informed Diffusion Policy (DIDP)を提案する。
論文 参考訳(メタデータ) (2025-05-23T03:28:25Z) - Post-Convergence Sim-to-Real Policy Transfer: A Principled Alternative to Cherry-Picking [5.027571997864706]
本稿では,最短ケースの性能伝達最適化手法を導入することで,コンバージェンス後のsim-to-real転送問題に対処する。
実験は、シミュレーションから実世界の実験室にRLに基づく移動ポリシーを移すことの有効性を実証した。
論文 参考訳(メタデータ) (2025-04-21T19:48:05Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [86.99017195607077]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。