論文の概要: AgenticRL: Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation
- arxiv url: http://arxiv.org/abs/2606.03963v3
- Date: Tue, 09 Jun 2026 15:09:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.931611
- Title: AgenticRL: Self-Refining Agentic Reinforcement Learning for Vision-Conditioned UAV Navigation
- Title(参考訳): AgenticRL:視覚依存型UAVナビゲーションのための自己精製型エージェント強化学習
- Authors: Roohan Ahmed Khan, Yasheerah Yaqoot, Amir Atef Habel, Muhammad Ahsan Mustafa, Dzmitry Tsetserukou,
- Abstract要約: 本稿では,ナビゲーションタスクのためのエージェントガイド型強化学習フレームワークであるAgenticRLを提案する。
AgenticRLは、タスク情報と視覚シーンの観察を解釈するために、マルチモーダル・ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)エージェントを使用する。
タスク固有の報酬関数を生成し、PPOアルゴリズムを用いてポリシーを訓練し、訓練されたポリシーを評価することで批判的な役割を果たす。
このフィードバックに基づいて、エージェントは障害モードを特定し、クローズドループ自己改善プロセスにおける報酬関数を洗練する。
- 参考スコア(独自算出の注目度): 2.0325612651874305
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep reinforcement learning has shown strong potential for enabling autonomous robots to learn complex navigational tasks. However, its practical use still depends heavily on human designed reward functions and repeated manual fine tuning, which is time consuming and does not guarantee high success in the desired task. This paper presents AgenticRL, agent guided reinforcement learning framework that increases autonomy in reward design, policy refinement, and real world deployment for unmanned aerial vehicles (UAV) navigation tasks. AgenticRL uses a multimodal generative pre-trained transformer (GPT) agent to interpret task information and visual scene observations, generate task specific reward functions, train policies using Proximal Policy Optimization (PPO) algorithm, and then act as a critic by evaluating the trained policy through diagnosis packets to generate feedback. Based on this feedback, the agent identifies failure modes and refines the reward function in a closed loop self improvement process. To further leverage the multimodal GPT agent during inference, AgenticRL uses real world images and natural language task information to automatically identify the active scenario and select the appropriate trained policy for execution. The framework is evaluated on multiple navigational tasks, including gate traversal, obstacle avoidance, wall barrier crossing with landing, trajectory following, and motion behavior learning. Experimental results show that the closed loop refinement process improves policy behavior compared with initial rewards by 71%. We also demonstrate sim-to-real transfer of the proposed framework, achieving a real world success rate of 91% and a sim-to-real accuracy of 94%.
- Abstract(参考訳): 深層強化学習は、自律ロボットが複雑なナビゲーションタスクを学べる強力な可能性を示している。
しかし、その実用的利用は依然として人間の設計した報酬関数と繰り返し手動の微調整に大きく依存しており、これは時間を要するものであり、所望のタスクにおいて高い成功を保証していない。
本稿では,無人航空機(UAV)ナビゲーションタスクにおける報酬設計,政策改善,実世界展開における自律性を高めるエージェント指導型強化学習フレームワークであるAgenticRLを提案する。
AgenticRLは、タスク情報と視覚シーンの観察を解釈し、タスク固有の報酬関数を生成し、PPOアルゴリズムを使用してトレーニングポリシーを作成し、診断パケットを介してトレーニングされたポリシーを評価して評価して、フィードバックを生成する。
このフィードバックに基づいて、エージェントは障害モードを特定し、クローズドループ自己改善プロセスにおける報酬関数を洗練する。
推論中にマルチモーダルGPTエージェントをさらに活用するために、AgenticRLは実世界の画像と自然言語タスク情報を使用して、アクティブシナリオを自動的に識別し、適切なトレーニングされた実行ポリシーを選択する。
このフレームワークは、ゲートトラバーサル、障害物回避、着陸時の壁壁交差、軌道追従、動きの学習など、複数のナビゲーションタスクで評価される。
実験結果から, 閉ループ改質プロセスは, 初期報酬よりも71%向上することがわかった。
また,提案したフレームワークのシミュレートを実世界の成功率91%,シミュレート精度94%で実証した。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning [11.602831593017427]
本稿では、強化学習(RL)を用いたエンドツーエンド自動運転エージェントの訓練の課題について述べる。
RLエージェントは通常、シミュレーションにおいて周囲の道路利用者の一定のシナリオと名目上の振る舞いで訓練される。
本稿では,エージェントの進化能力に基づいて,適応性のある複雑な運転シナリオを動的に生成する自動カリキュラム学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-13T06:26:57Z) - Vision-Based Deep Reinforcement Learning of UAV Autonomous Navigation Using Privileged Information [6.371251946803415]
DPRLは、部分的に観測可能な環境下での高速無人無人飛行の課題に対処するために設計されたエンドツーエンドのポリシーである。
非対称なアクター・クライブアーキテクチャを利用して、トレーニング中にエージェントに特権情報を提供する。
我々は、DPRLアルゴリズムを最先端のナビゲーションアルゴリズムと比較し、様々なシナリオにまたがって広範なシミュレーションを行う。
論文 参考訳(メタデータ) (2024-12-09T09:05:52Z) - Diffusion-Reinforcement Learning Hierarchical Motion Planning in Multi-agent Adversarial Games [6.532258098619471]
環境データに応答するグローバルパスを計画するために,高レベル拡散モデルを統合する階層型アーキテクチャを提案する。
提案手法は,検出率と目標到達率において77.18%,47.38%のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-03-16T03:53:55Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。