論文の概要: Learning from Less: SINDy Surrogates in RL
- arxiv url: http://arxiv.org/abs/2504.18113v1
- Date: Fri, 25 Apr 2025 06:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.666345
- Title: Learning from Less: SINDy Surrogates in RL
- Title(参考訳): 教訓から学ぶ: SINDy Surrogates in RL
- Authors: Aniket Dixit, Muhammad Ibrahim Khan, Faizan Ahmed, James Brusey,
- Abstract要約: 本稿では,SINDyアルゴリズムを用いた強化学習(RL)における代理環境構築手法を提案する。
我々は,OpenAI Gym環境,特にマウンテンカーとルナーランダーでの広範な実験を通じて,アプローチの有効性を実証する。
以上の結果から,SINDyに基づくサロゲートモデルは,計算コストを20~35%削減しつつ,これらの環境の基盤となるダイナミクスを正確に捉えることができることがわかった。
- 参考スコア(独自算出の注目度): 2.1811692273423224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces an approach for developing surrogate environments in reinforcement learning (RL) using the Sparse Identification of Nonlinear Dynamics (SINDy) algorithm. We demonstrate the effectiveness of our approach through extensive experiments in OpenAI Gym environments, particularly Mountain Car and Lunar Lander. Our results show that SINDy-based surrogate models can accurately capture the underlying dynamics of these environments while reducing computational costs by 20-35%. With only 75 interactions for Mountain Car and 1000 for Lunar Lander, we achieve state-wise correlations exceeding 0.997, with mean squared errors as low as 3.11e-06 for Mountain Car velocity and 1.42e-06 for LunarLander position. RL agents trained in these surrogate environments require fewer total steps (65,075 vs. 100,000 for Mountain Car and 801,000 vs. 1,000,000 for Lunar Lander) while achieving comparable performance to those trained in the original environments, exhibiting similar convergence patterns and final performance metrics. This work contributes to the field of model-based RL by providing an efficient method for generating accurate, interpretable surrogate environments.
- Abstract(参考訳): 本稿では,非線形ダイナミクスのスパース同定(SINDy)アルゴリズムを用いて,強化学習(RL)における代理環境の開発手法を提案する。
我々は,OpenAI Gym環境,特にマウンテンカーとルナーランダーでの広範な実験を通じて,アプローチの有効性を実証する。
以上の結果から,SINDyに基づくサロゲートモデルは,計算コストを20~35%削減しつつ,これらの環境の基盤となるダイナミクスを正確に捉えることができることがわかった。
マウンテンカーとルナーランダーの相互作用は75点、ルナーランダーの相関は0.997点を超え、マウンテンカーの速度は3.11e-06点、ルナーランダーの位置は1.42e-06点である。
これらの代理環境で訓練されたRLエージェントは、合計ステップ(マウンテンカーでは65,075対10,000対ルナーランダーでは801,000対1000,000対10,000対)を減らし、元の環境で訓練されたエージェントと同等のパフォーマンスを達成し、同様の収束パターンと最終的なパフォーマンス指標を示す。
この研究は、正確な解釈可能な代理環境を生成する効率的な方法を提供することで、モデルベースRLの分野に寄与する。
関連論文リスト
- Reinforcement Learning for Reasoning in Large Language Models with One Training Example [129.11571295790807]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスドメインの一般化、自己回帰の頻度の増大、トレーニング精度が飽和した後もテスト性能の向上が維持されていることを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.2229964736678]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - RALAD: Bridging the Real-to-Sim Domain Gap in Autonomous Driving with Retrieval-Augmented Learning [25.438771583229727]
本稿では,リアルタイムとシミュレーションのギャップを低コストで埋めるために,自律運転のための検索強化学習(RALAD)を提案する。
RALADは、(1)拡張された最適輸送(OT)メソッドによるドメイン適応、(2)シンプルで統一されたフレームワーク、(3)効率的な微調整技術を含む3つの主要な設計を特徴としている。
実験の結果,ALADは実世界のシナリオにおける精度を維持しつつ,シミュレーション環境における性能劣化を補償することを示した。
論文 参考訳(メタデータ) (2025-01-21T17:03:06Z) - Domain Generalization in Autonomous Driving: Evaluating YOLOv8s, RT-DETR, and YOLO-NAS with the ROAD-Almaty Dataset [0.0]
本研究では,カザフスタンのユニークな運転環境における3つの最先端物体検出モデル(YOLOv8s, RT-DETR, YOLO-NAS)の領域一般化能力について検討した。
モデルの性能を再トレーニングせずに評価する。
論文 参考訳(メタデータ) (2024-12-16T20:42:26Z) - DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。
VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。
我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文 参考訳(メタデータ) (2024-06-14T17:49:55Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Off Environment Evaluation Using Convex Risk Minimization [0.0]
本稿では,シミュレータと対象領域間のモデルミスマッチを推定する凸リスク最小化アルゴリズムを提案する。
対象領域におけるRLエージェントの性能を評価するために,シミュレータとともにこの推定器を使用できることを示す。
論文 参考訳(メタデータ) (2021-12-21T21:31:54Z) - OTTR: Off-Road Trajectory Tracking using Reinforcement Learning [6.033086397437647]
オフロード軌道追跡問題に対する新しい強化学習(RL)アルゴリズムを提案する。
提案手法は,ベースラインRLポリシーに適応するために利用可能な限られた実世界のデータを効率的に活用する。
標準のILQR手法と比較して,提案手法はWarthogとMooseのクロストラック誤差を30%,50%削減する。
論文 参考訳(メタデータ) (2021-10-05T20:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。