Fugu-MT 論文翻訳(概要): Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

論文の概要: Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training

arxiv url: http://arxiv.org/abs/2604.26833v1
Date: Wed, 29 Apr 2026 16:01:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-30 15:59:36.477054
Title: Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training
Title（参考訳）: 限定シミュレーション訓練におけるゴールコンディション強化学習のためのルールベース高レベルコーチング
Authors: Mahya Ramezani, Holger Voos,
Abstract要約: このフレームワークは、固定されたルールベースのハイレベルアドバイザと、オンラインのゴール条件付き低レベル強化学習コントローラを組み合わせる。バッテリー対応マルチゴールデリバリと障害物の多い環境における移動目標デリバリの2つの課題について,本フレームワークの評価を行った。
参考スコア（独自算出の注目度）: 1.1960178399478718
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper presents a hierarchical decision-making framework for unmanned aerial vehicle (UAV) missions motivated by search-and-rescue (SAR) scenarios under limited simulation training. The framework combines a fixed rule-based high-level advisor with an online goal-conditioned low-level reinforcement learning (RL) controller. To stress-test early adaptation, we also consider a strict no-pretraining deployment regime. The high-level advisor is defined offline from a structured task specification and compiled into deterministic rules. It provides interpretable mission- and safety-aware guidance through recommended actions, avoided actions, and regime-dependent arbitration weights. The low-level controller learns online from task-defined dense rewards and reuses experience through a mode-aware prioritized replay mechanism augmented with rule-derived metadata. We evaluate the framework on two tasks: battery-aware multi-goal delivery and moving-target delivery in obstacle-rich environments. Across both tasks, the proposed method improves early safety and sample efficiency primarily by reducing collision terminations, while preserving the ability to adapt online to scenario-specific dynamics.
Abstract（参考訳）: 本稿では,無人航空機 (UAV) の探索・救助(SAR) シナリオに動機づけられた階層的意思決定の枠組みについて述べる。このフレームワークは、固定ルールベースの高レベルアドバイザと、オンライン目標条件付き低レベル強化学習(RL)コントローラを組み合わせる。早期適応をストレステストするためには、厳格な非事前配置体制も検討する。高レベルのアドバイザは、構造化されたタスク仕様からオフラインで定義され、決定論的ルールにコンパイルされる。これは、推奨された行動、回避された行動、および体制に依存した仲裁の重みを通じて、解釈可能なミッションおよび安全に配慮したガイダンスを提供する。低レベルコントローラは、タスク定義の密集した報酬からオンラインで学習し、ルール由来のメタデータを付加したモード認識優先リプレイ機構を通じて、経験を再利用する。バッテリー対応マルチゴールデリバリと障害物の多い環境における移動目標デリバリの2つの課題について,本フレームワークの評価を行った。両課題において, 提案手法は, 衝突項の低減と, シナリオ固有力学へのオンライン適応能力の確保により, 早期安全性と試料効率の向上を図っている。

関連論文リスト

Smart Commander: A Hierarchical Reinforcement Learning Framework for Fleet-Level PHM Decision Optimization [6.029264044194714]
本稿では,シーケンシャルなメンテナンスとロジスティクスの決定を最適化する新しい階層強化学習(HRL)フレームワークであるSmart Commanderを提案する。このフレームワークは、複雑な制御問題を2階層の階層に分解する: 戦略総司令官は、艦隊レベルの可用性とコスト目標を管理し、戦術作戦コマンドは、ソート生成、メンテナンススケジューリング、リソース割り当てのための特定のアクションを実行する。実証的な評価によると、Smart Commanderは従来のモノリシックなDeepReinforcement Learning(DRL)とルールベースのベースラインを大きく上回っている。
論文参考訳（メタデータ） (2026-04-08T15:00:12Z)
Hierarchical Reinforcement Learning with Low-Level MPC for Multi-Agent Control [1.5856188608650232]
強化学習(RL)による戦術的意思決定とモデル予測制御(MPC)による低レベル実行を組み合わせた階層的枠組みを提案する。プレデター・プリーベンチマークでテストしたところ、我々のアプローチは報酬、安全性、一貫性の点でエンドツーエンドとシールドベースのRLベースラインよりも優れています。
論文参考訳（メタデータ） (2025-09-19T09:27:15Z)
Reinforcement Learning with Anticipation: A Hierarchical Approach for Long-Horizon Tasks [3.79187263097166]
長期の目標条件付きタスクの解決は、強化学習において重要な課題である。 Reinforcement Learning with Precipation(RLA)は、これらの制限に対処するために設計された、原則付き、潜在的にスケーラブルなフレームワークです。 RLAの主な特徴は予測モデルのトレーニングであり、これは値の幾何的一貫性の原則によって導かれる。
論文参考訳（メタデータ） (2025-09-06T00:10:15Z)
Enhancing Aerial Combat Tactics through Hierarchical Multi-Agent Reinforcement Learning [38.15185397658309]
本研究は,模擬空戦シナリオを解析するための階層型多エージェント強化学習フレームワークを提案する。目的は、予め設定されたシミュレーションでミッションの成功につながる効果的な行動コースを特定することである。
論文参考訳（メタデータ） (2025-05-13T22:13:48Z)
Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。 DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文参考訳（メタデータ） (2024-11-01T04:58:40Z)
Joint Unsupervised and Supervised Training for Automatic Speech Recognition via Bilevel Optimization [73.98386682604122]
両レベル共同教師なし・教師付き訓練(BL-JUST)と呼ばれる自動音声認識(ASR)タスクのための音響モデルのトレーニングのための,バイレベル最適化に基づく新たなトレーニング手法を提案する。 BL-JUSTは、教師なしの損失と教師なしの損失で下層と上層を最適化し、最近のペナルティベースの二レベル最適化の進歩を利用して、安価で複雑なASR問題と厳密な収束を保証する。
論文参考訳（メタデータ） (2024-01-13T05:01:47Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Reinforcement Learning for Low-Thrust Trajectory Design of Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。最先端アルゴリズムのオープンソース実装が採用されている。その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文参考訳（メタデータ） (2020-08-19T15:22:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。