論文の概要: Anchored Learning for On-the-Fly Adaptation -- Extended Technical Report
- arxiv url: http://arxiv.org/abs/2301.06987v2
- Date: Fri, 25 Oct 2024 20:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 16:00:57.869833
- Title: Anchored Learning for On-the-Fly Adaptation -- Extended Technical Report
- Title(参考訳): オンザフライ適応のためのAnchored Learning -- Extended Technical Report
- Authors: Bassel El Mabsout, Shahin Roozkhosh, Siddharth Mysore, Kate Saenko, Renato Mancuso,
- Abstract要約: 本研究は「アンカー批評家」であり, 実空間を横断する強化学習(RL)エージェントの堅牢性を高めるための新たな戦略である。
そこでは、政策が頻繁に遭遇する状態に対して高い報酬を維持するが、稀で重要なシナリオではパフォーマンスを失う。
提案手法は,シム・トゥ・シム・ジム・タスクやシム・トゥ・リアルシナリオにおいて,制御可能な安定飛行を維持しつつ,ほぼ50%の消費電力削減を実現することができることを示す。
- 参考スコア(独自算出の注目度): 45.123633153460034
- License:
- Abstract: This study presents "anchor critics", a novel strategy for enhancing the robustness of reinforcement learning (RL) agents in crossing the sim-to-real gap. While RL agents can be successfully trained in simulation, they often encounter difficulties such as unpredictability, inefficient power consumption, and operational failures when deployed in real-world scenarios. We identify that naive fine-tuning approaches lead to catastrophic forgetting, where policies maintain high rewards on frequently encountered states but lose performance on rarer, yet critical scenarios. Our method maximizes multiple Q-values across domains, ensuring high performance in both simulation and reality. Evaluations demonstrate that our approach enables behavior retention in sim-to-sim gymnasium tasks and in sim-to-real scenarios with racing quadrotors, achieving a near-50% reduction in power consumption while maintaining controllable, stable flight. We also contribute SwannFlight, an open-source firmware for testing adaptation techniques on real robots.
- Abstract(参考訳): 本研究は「アンカー批評家」であり, 実空間を横断する強化学習(RL)エージェントの堅牢性を高めるための新たな戦略である。
RLエージェントはシミュレーションでうまくトレーニングできるが、予測不可能、非効率な電力消費、実世界のシナリオにデプロイした場合の運用上の障害といった問題に遭遇することが多い。
そこでは、政策が頻繁に遭遇する状態に対して高い報酬を維持するが、稀で重要なシナリオではパフォーマンスを失う。
提案手法は,複数の領域にまたがるQ値の最大化を実現し,シミュレーションと現実の両方において高い性能を実現する。
提案手法は,シム・トゥ・シム・ギムナシウム作業およびシム・トゥ・リアルシナリオにおいて,制御可能な安定飛行を維持しつつ,ほぼ50%の消費電力削減を実現することができることを示す。
また、実際のロボット上で適応技術をテストするためのオープンソースのファームウェアであるSwannFlightにもコントリビュートしています。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement
Learning [0.8399688944263843]
深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。
Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。
本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:27:01Z) - Finding Failures in High-Fidelity Simulation using Adaptive Stress
Testing and the Backward Algorithm [35.076062292062325]
適応ストレステスト(アダプティブストレステスト、英: Adaptive stress testing、AST)は、強化学習を用いてシステムの最も起こりそうな障害を見つける手法である。
深い強化学習の解法を持つASTは、様々なシステムにまたがる障害を見つけるのに有効であることが示されている。
効率を向上させるために,まず低忠実度シミュレータで故障を検知する手法を提案する。
次に、単一の専門家によるデモンストレーションを使用してディープニューラルネットワークポリシーをトレーニングするバックワードアルゴリズムを使用して、低忠実度障害を高忠実度に適応させる。
論文 参考訳(メタデータ) (2021-07-27T16:54:04Z) - Multiplicative Controller Fusion: Leveraging Algorithmic Priors for
Sample-efficient Reinforcement Learning and Safe Sim-To-Real Transfer [18.50206483493784]
本稿では,既存の準最適解を活用可能なモデルフリー強化学習手法を提案する。
訓練中は, ゲート融合法により, 先行者が探査の初期段階を案内できる。
本稿では,ロボットナビゲーションにおけるマルチプリケーティブ・コントローラ・フュージョン・アプローチの有効性を示す。
論文 参考訳(メタデータ) (2020-03-11T05:12:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。