論文の概要: DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning
- arxiv url: http://arxiv.org/abs/2410.17186v1
- Date: Tue, 22 Oct 2024 17:07:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:27:46.287367
- Title: DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning
- Title(参考訳): DyPNIPP:RLに基づくロバストインフォーマティブパス計画のための環境ダイナミクス予測
- Authors: Srujan Deolasee, Siva Kailas, Wenhao Luo, Katia Sycara, Woojun Kim,
- Abstract要約: DyPNIPPは、時間的環境を効果的に横断するために設計された堅牢なRLベースのIPPフレームワークである。
野火環境での実験では、DyPNIPPは既存のRLベースのIPPアルゴリズムよりも優れていた。
- 参考スコア(独自算出の注目度): 13.462524685985818
- License:
- Abstract: Informative path planning (IPP) is an important planning paradigm for various real-world robotic applications such as environment monitoring. IPP involves planning a path that can learn an accurate belief of the quantity of interest, while adhering to planning constraints. Traditional IPP methods typically require high computation time during execution, giving rise to reinforcement learning (RL) based IPP methods. However, the existing RL-based methods do not consider spatio-temporal environments which involve their own challenges due to variations in environment characteristics. In this paper, we propose DyPNIPP, a robust RL-based IPP framework, designed to operate effectively across spatio-temporal environments with varying dynamics. To achieve this, DyPNIPP incorporates domain randomization to train the agent across diverse environments and introduces a dynamics prediction model to capture and adapt the agent actions to specific environment dynamics. Our extensive experiments in a wildfire environment demonstrate that DyPNIPP outperforms existing RL-based IPP algorithms by significantly improving robustness and performing across diverse environment conditions.
- Abstract(参考訳): インフォーマティブパス計画(IPP)は環境モニタリングなどの様々な実世界のロボットアプリケーションにとって重要な計画パラダイムである。
IPPは、計画上の制約に固執しながら、関心の量に関する正確な信念を習得できるパスを計画する。
従来のIPP法は、実行中に高い計算時間を必要とし、強化学習(RL)ベースのIPP法を生み出している。
しかし, 既存のRL法では, 環境特性の変化により, 個別の課題を伴う時空間環境は考慮されていない。
本稿では,RLをベースとした頑健なIPPフレームワークであるDyPNIPPを提案する。
これを実現するために、DyPNIPPはドメインランダム化を導入し、エージェントを様々な環境にわたって訓練し、エージェントアクションを特定の環境ダイナミクスにキャプチャして適応するための動的予測モデルを導入する。
野火環境における広範囲な実験により,DyPNIPPは既存のRLベースのIPPアルゴリズムより優れており,ロバスト性を大幅に向上し,多様な環境条件で性能が向上していることが示された。
関連論文リスト
- Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。
トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文 参考訳(メタデータ) (2024-09-25T11:30:59Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - A Comparative Study of Machine Learning Algorithms for Anomaly Detection
in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。
Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。
しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文 参考訳(メタデータ) (2023-07-01T15:18:00Z) - Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。
新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。
ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文 参考訳(メタデータ) (2023-02-23T10:48:09Z) - Hierarchical Policy Blending as Inference for Reactive Robot Control [21.058662668187875]
ぼんやりした、密集した、ダイナミックな環境における運動生成は、ロボット工学における中心的なトピックである。
反応ポリシーと計画の利点を組み合わせた階層的な動き生成手法を提案する。
平面ナビゲーションと6DoF操作の実験的研究により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
論文 参考訳(メタデータ) (2022-10-14T15:16:54Z) - Scenic4RL: Programmatic Modeling and Generation of Reinforcement
Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。
既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。
我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文 参考訳(メタデータ) (2021-06-18T21:49:46Z) - Adaptive Informative Path Planning with Multimodal Sensing [36.16721115973077]
AIPPMS(マルチモーダルセンシング用MS)
AIPPMSを部分的に観測可能なマルコフ決定プロセス(POMDP)として、オンラインプランニングで解決する。
シミュレーションされた検索・救助シナリオと,従来のRockSample問題への挑戦的拡張の2つの領域について,本手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-21T20:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。