Fugu-MT 論文翻訳(概要): DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning

論文の概要: DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning

arxiv url: http://arxiv.org/abs/2410.17186v1
Date: Tue, 22 Oct 2024 17:07:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.106507
Title: DyPNIPP: Predicting Environment Dynamics for RL-based Robust Informative Path Planning
Title（参考訳）: DyPNIPP:RLに基づくロバストインフォーマティブパス計画のための環境ダイナミクス予測
Authors: Srujan Deolasee, Siva Kailas, Wenhao Luo, Katia Sycara, Woojun Kim,
Abstract要約: DyPNIPPは、時間的環境を効果的に横断するために設計された堅牢なRLベースのIPPフレームワークである。野火環境での実験では、DyPNIPPは既存のRLベースのIPPアルゴリズムよりも優れていた。
参考スコア（独自算出の注目度）: 13.462524685985818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Informative path planning (IPP) is an important planning paradigm for various real-world robotic applications such as environment monitoring. IPP involves planning a path that can learn an accurate belief of the quantity of interest, while adhering to planning constraints. Traditional IPP methods typically require high computation time during execution, giving rise to reinforcement learning (RL) based IPP methods. However, the existing RL-based methods do not consider spatio-temporal environments which involve their own challenges due to variations in environment characteristics. In this paper, we propose DyPNIPP, a robust RL-based IPP framework, designed to operate effectively across spatio-temporal environments with varying dynamics. To achieve this, DyPNIPP incorporates domain randomization to train the agent across diverse environments and introduces a dynamics prediction model to capture and adapt the agent actions to specific environment dynamics. Our extensive experiments in a wildfire environment demonstrate that DyPNIPP outperforms existing RL-based IPP algorithms by significantly improving robustness and performing across diverse environment conditions.
Abstract（参考訳）: インフォーマティブパス計画(IPP)は環境モニタリングなどの様々な実世界のロボットアプリケーションにとって重要な計画パラダイムである。 IPPは、計画上の制約に固執しながら、関心の量に関する正確な信念を習得できるパスを計画する。従来のIPP法は、実行中に高い計算時間を必要とし、強化学習(RL)ベースのIPP法を生み出している。しかし, 既存のRL法では, 環境特性の変化により, 個別の課題を伴う時空間環境は考慮されていない。本稿では,RLをベースとした頑健なIPPフレームワークであるDyPNIPPを提案する。これを実現するために、DyPNIPPはドメインランダム化を導入し、エージェントを様々な環境にわたって訓練し、エージェントアクションを特定の環境ダイナミクスにキャプチャして適応するための動的予測モデルを導入する。野火環境における広範囲な実験により,DyPNIPPは既存のRLベースのIPPアルゴリズムより優れており,ロバスト性を大幅に向上し,多様な環境条件で性能が向上していることが示された。

関連論文リスト

Exploration and Adaptation in Non-Stationary Tasks with Diffusion Policies [0.0]
本稿では,非定常視覚に基づくRL設定における拡散政策の適用について検討する。我々はDiffusion Policy(拡散ポリシー)を適用し、ProcgenやPointMazeといったベンチマーク環境に反復的な denoising を利用して遅延アクション表現を洗練します。計算要求が増大しているにもかかわらず,拡散ポリシはPPOやDQNなどの標準RL法を常に上回り,変動性を低減した平均値と最大値の報奨が得られることを示した。
論文参考訳（メタデータ） (2025-03-31T23:00:07Z)
Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction [7.918703013303246]
我々は,高次元連続行動空間における決定を学習する上での課題に対処する潜在マクロ行動プランナー(L-MAP)を提案する。 L-MAPは状態条件ベクトル量子変分オートエンコーダ(VQ-VAE)を通して時間的に拡張されたマクロアクションの集合を学習する連続制御タスクを含むオフラインRL設定では、L-MAPは離散潜在アクションを効率よく探索し、高い期待値が得られる。
論文参考訳（メタデータ） (2025-02-28T16:02:23Z)
Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。 ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文参考訳（メタデータ） (2024-10-22T09:29:53Z)
OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文参考訳（メタデータ） (2024-09-25T11:30:59Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文参考訳（メタデータ） (2024-02-09T07:45:26Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
A Comparative Study of Machine Learning Algorithms for Anomaly Detection in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。 Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文参考訳（メタデータ） (2023-07-01T15:18:00Z)
Diverse Policy Optimization for Structured Action Space [59.361076277997704]
エネルギーベースモデル(EBM)として構造化された行動空間における政策をモデル化するための多元的政策最適化(DPO)を提案する。新しい強力な生成モデルであるGFlowNetは、効率よく多様なEMMベースのポリシーサンプリングとして導入されている。 ATSCとBattleベンチマークの実験では、DPOが驚くほど多様なポリシーを効率的に発見できることが示されている。
論文参考訳（メタデータ） (2023-02-23T10:48:09Z)
Hierarchical Policy Blending as Inference for Reactive Robot Control [21.058662668187875]
ぼんやりした、密集した、ダイナミックな環境における運動生成は、ロボット工学における中心的なトピックである。反応ポリシーと計画の利点を組み合わせた階層的な動き生成手法を提案する。平面ナビゲーションと6DoF操作の実験的研究により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
論文参考訳（メタデータ） (2022-10-14T15:16:54Z)
Scenic4RL: Programmatic Modeling and Generation of Reinforcement Learning Environments [89.04823188871906]
リアルタイム戦略(RTS)環境では,多様な現実シナリオの生成が難しい。既存のシミュレータのほとんどは環境をランダムに生成することに頼っている。我々は、研究者を支援するために、既存の形式シナリオ仕様言語であるSCENICを採用する利点を紹介する。
論文参考訳（メタデータ） (2021-06-18T21:49:46Z)
Adaptive Informative Path Planning with Multimodal Sensing [36.16721115973077]
AIPPMS(マルチモーダルセンシング用MS) AIPPMSを部分的に観測可能なマルコフ決定プロセス(POMDP)として、オンラインプランニングで解決する。シミュレーションされた検索・救助シナリオと,従来のRockSample問題への挑戦的拡張の2つの領域について,本手法の評価を行った。
論文参考訳（メタデータ） (2020-03-21T20:28:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。