論文の概要: LLM-Driven Self-Refinement for Embodied Drone Task Planning
- arxiv url: http://arxiv.org/abs/2508.15501v1
- Date: Thu, 21 Aug 2025 12:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-22 16:26:46.319994
- Title: LLM-Driven Self-Refinement for Embodied Drone Task Planning
- Title(参考訳): 空飛ぶドローン作業計画のためのLCM駆動型自己調整
- Authors: Deyu Zhang, Xicheng Zhang, Jiahao Li, Tingting Long, Xunhua Dai, Yongjian Fu, Jinrui Zhang, Ju Ren, Yaoxue Zhang,
- Abstract要約: SRDroneは産業用ドローンの自己補充作業計画のために設計された新しいシステムである。
継続的状態評価手法を取り入れて、タスクの成果を堅牢かつ正確に決定する。
また、BT(hierarchical Behavior Tree)修正モデルを実装している。
- 参考スコア(独自算出の注目度): 29.164725771562473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce SRDrone, a novel system designed for self-refinement task planning in industrial-grade embodied drones. SRDrone incorporates two key technical contributions: First, it employs a continuous state evaluation methodology to robustly and accurately determine task outcomes and provide explanatory feedback. This approach supersedes conventional reliance on single-frame final-state assessment for continuous, dynamic drone operations. Second, SRDrone implements a hierarchical Behavior Tree (BT) modification model. This model integrates multi-level BT plan analysis with a constrained strategy space to enable structured reflective learning from experience. Experimental results demonstrate that SRDrone achieves a 44.87% improvement in Success Rate (SR) over baseline methods. Furthermore, real-world deployment utilizing an experience base optimized through iterative self-refinement attains a 96.25% SR. By embedding adaptive task refinement capabilities within an industrial-grade BT planning framework, SRDrone effectively integrates the general reasoning intelligence of Large Language Models (LLMs) with the stringent physical execution constraints inherent to embodied drones. Code is available at https://github.com/ZXiiiC/SRDrone.
- Abstract(参考訳): SRDroneは,産業用ドローンの自己補充作業計画のための新しいシステムである。
SRDroneは2つの重要な技術的貢献を取り入れている。 第一に、タスクの結果を堅牢かつ正確に決定し、説明的フィードバックを提供するために、継続的状態評価手法を使用している。
このアプローチは、継続的でダイナミックなドローン運用において、単一フレームのファイナルステートアセスメントに依存する従来の方法に取って代わる。
第二に、SRDroneは階層的振舞い木(BT)修正モデルを実装している。
このモデルはマルチレベルBT計画解析と制約付き戦略空間を統合し、経験から構造化された反射学習を可能にする。
実験の結果,SRDroneはベースライン法よりも44.87%向上した。
さらに、反復的な自己複製によって最適化された経験ベースを利用した実世界の展開は96.25%のSRを達成した。
SRDroneは、産業レベルのBT計画フレームワークに適応的なタスクリファインメント機能を組み込むことで、大規模言語モデル(LLM)の一般的な推論インテリジェンスと、組み込まれたドローンに固有の厳密な物理的実行制約を効果的に統合する。
コードはhttps://github.com/ZXiiiC/SRDrone.comで入手できる。
関連論文リスト
- Robometer: Scaling General-Purpose Robotic Reward Models via Trajectory Comparisons [69.87766750714945]
汎用ロボット報酬モデルは通常、専門家によるデモンストレーションから絶対的なタスク進捗を予測するために訓練される。
本稿では、軌道内進行監視と軌道間優先監視を組み合わせたスケーラブルな報酬モデリングフレームワークRobometerを紹介する。
ロビオメーターは、専門家データに報酬等級を固定するフレームレベルのプログレス・ロスと、グローバルな順序制約を課す軌跡比較優先損失という2つの目的で訓練されている。
論文 参考訳(メタデータ) (2026-03-02T17:38:58Z) - ManeuverNet: A Soft Actor-Critic Framework for Precise Maneuvering of Double-Ackermann-Steering Robots with Optimized Reward Functions [0.7322887425853787]
ManeuverNetは、Soft Actor-CriticとCrossQを組み合わせたDRLフレームワークである。
我々は,最新のDRLベースラインとTimed Elastic Bandプランナの両方に対して,ManeuverNetを広範囲に評価した。
実世界の試験では、ManeuverNetは軌道の効率を最大90%向上させ、その堅牢性と実用性を強調した。
論文 参考訳(メタデータ) (2026-02-16T13:19:04Z) - ProRAG: Process-Supervised Reinforcement Learning for Retrieval-Augmented Generation [54.071574153853994]
ProRAGは、学習段階の監視をオンライン最適化ループに統合するために設計されたプロセス教師付き強化学習フレームワークである。
本フレームワークは,(1)構造化推論形式でモデルを初期化するための監視されたポリシーワームアップ,(2)中間推論品質を定量化するためのMCTSベースのプロセスリワードモデル(PRM)の構築,(3)細粒度プロセスの好みに合わせてポリシーを調整するためのPRM誘導推論リファインメント,(4)プロセススーパービジョン強化学習と2つのグラニュラリティー・アドバンテージ・メカニズムの4段階から構成される。
論文 参考訳(メタデータ) (2026-01-29T16:04:59Z) - CASTER: Breaking the Cost-Performance Barrier in Multi-Agent Orchestration via Context-Aware Strategy for Task Efficient Routing [25.48759875572515]
CASTER (Context-Aware Strategy for Task Efficient Routing) はグラフベースMASにおける動的モデル選択のための軽量ルータである。
CASTERは強力なモデルベースラインに比べて推論コストを最大72.4%削減する。
論文 参考訳(メタデータ) (2026-01-27T16:52:47Z) - Integrating Symbolic RL Planning into a BDI-based Autonomous UAV Framework: System Integration and SIL Validation [3.5966087153300057]
本稿では,自律ミッションエージェント・フォー・ドローン(AMAD)認知マルチエージェントアーキテクチャの拡張版を提案する。
我々は、ハードウェア・イン・ザ・ループ・シミュレーション(HILS)プラットフォームと同じ構成のSoftware-in-the-Loop(SIL)環境で、我々のフレームワークを検証した。
実験の結果、モジュールの安定な統合と相互運用、BDI駆動と象徴的なRL駆動の計画フェーズ間の遷移の成功、一貫したミッション性能が示された。
論文 参考訳(メタデータ) (2025-08-16T03:27:26Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - DL-DRL: A double-level deep reinforcement learning approach for
large-scale task scheduling of multi-UAV [65.07776277630228]
分割・征服フレームワーク(DCF)に基づく二重レベル深層強化学習(DL-DRL)手法を提案する。
特に,上層部DRLモデルにおけるエンコーダ・デコーダ構成ポリシネットワークを設計し,タスクを異なるUAVに割り当てる。
また、低レベルDRLモデルにおける別の注意に基づくポリシーネットワークを利用して、各UAVの経路を構築し、実行されたタスク数を最大化する。
論文 参考訳(メタデータ) (2022-08-04T04:35:53Z) - Reinforcement Learning for Robust Missile Autopilot Design [0.0]
この研究は、飛行制御のフレームワークとして強化学習を提案する先駆者である。
TRPOの手法では、収集されたエクスペリエンスはHERに従って拡張され、リプレイバッファに格納され、その重要性に応じてサンプリングされる。
その結果、最適な性能を達成し、不確実性に対するエージェントの堅牢性を改善することが可能であることがわかった。
論文 参考訳(メタデータ) (2020-11-26T09:30:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。