Fugu-MT 論文翻訳(概要): Long Short-Term Memory for Spatial Encoding in Multi-Agent Path Planning

論文の概要: Long Short-Term Memory for Spatial Encoding in Multi-Agent Path Planning

arxiv url: http://arxiv.org/abs/2203.10823v1
Date: Mon, 21 Mar 2022 09:16:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-22 15:15:45.503314
Title: Long Short-Term Memory for Spatial Encoding in Multi-Agent Path Planning
Title（参考訳）: 多元経路計画における空間符号化のための長期記憶
Authors: Marc R. Schlichting, Stefan Notter, and Walter Fichter
Abstract要約: 強化学習は、望ましい経路計画行動に対応する政策ネットワークの訓練に使用される。長期記憶モジュール(Long Short-Term Memory Module)は、不特定数の状態と、不定数のエージェントをエンコードするために提案される。提案手法は,実環境における衝突のない自律走行を行う最大4機のドローンの飛行試験結果を示すことによって検証される。
参考スコア（独自算出の注目度）: 0.34410212782758043
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning-based path planning for multi-agent systems of varying size constitutes a research topic with increasing significance as progress in domains such as urban air mobility and autonomous aerial vehicles continues. Reinforcement learning with continuous state and action spaces is used to train a policy network that accommodates desirable path planning behaviors and can be used for time-critical applications. A Long Short-Term Memory module is proposed to encode an unspecified number of states for a varying, indefinite number of agents. The described training strategies and policy architecture lead to a guidance that scales to an infinite number of agents and unlimited physical dimensions, although training takes place at a smaller scale. The guidance is implemented on a low-cost, off-the-shelf onboard computer. The feasibility of the proposed approach is validated by presenting flight test results of up to four drones, autonomously navigating collision-free in a real-world environment.
Abstract（参考訳）: 異なる大きさのマルチエージェントシステムのための強化学習に基づく経路計画は、都市空輸や自律飛行車といった分野の進展が続くにつれて重要性が増す研究課題となっている。継続的な状態と行動空間による強化学習は、望ましい経路計画行動に対応し、時間クリティカルなアプリケーションに使用できるポリシーネットワークのトレーニングに使用される。長期間のメモリモジュールは、さまざまな無期限のエージェントに対して、未特定数の状態をエンコードするために提案されている。説明されたトレーニング戦略とポリシーアーキテクチャは、トレーニングはより小さなスケールで行われるが、無限のエージェントと無限の物理的次元にスケールするガイダンスにつながる。このガイダンスは、低価格で市販のコンピュータで実装されている。提案手法の有効性は、実環境における衝突のない自律飛行による最大4機の飛行試験結果の提示によって検証される。

関連論文リスト

Adapting Reinforcement Learning for Path Planning in Constrained Parking Scenarios [6.734318562862061]
駐車場におけるリアルタイム経路計画のためのDeep Reinforcement Learningフレームワークを提案する。古典的なプランナーとは異なり、我々の解は理想的で構造化された知覚を必要としない。テスト時には、ポリシーは各ステップで1つのフォワードパスを通じてアクションを生成します。
論文参考訳（メタデータ） (2026-01-30T04:35:49Z)
TD-JEPA: Latent-predictive Representations for Zero-Shot Reinforcement Learning [63.73629127832652]
本稿では,TDに基づく潜在予測表現を教師なしRLに活用するTD-JEPAを紹介する。 TD-JEPAは、明示的な状態とタスクエンコーダ、ポリシー条件付きマルチステップ予測器、パラメータ化されたポリシーのセットを潜時空間で直接訓練する。実証的には、TD-JEPAは13のデータセットにわたる移動、ナビゲーション、操作のタスクにおいて、最先端のベースラインをマッチまたは上回る。
論文参考訳（メタデータ） (2025-10-01T10:21:18Z)
Reinforcement Learning for Decision-Level Interception Prioritization in Drone Swarm Defense [56.47577824219207]
本稿では,この課題に対処する上で,強化学習の実践的メリットを示すケーススタディを提案する。本研究では,現実的な運用制約を捉えた高忠実度シミュレーション環境を提案する。エージェントは最適なインターセプション優先順位付けのために複数のエフェクターを調整することを学ぶ。我々は、何百ものシミュレートされた攻撃シナリオにおいて、手作りルールベースのベースラインに対する学習ポリシーを評価する。
論文参考訳（メタデータ） (2025-08-01T13:55:39Z)
Variable Time-Step MPC for Agile Multi-Rotor UAV Interception of Dynamic Targets [6.0967385124149756]
既存の非線形モデル予測制御手法を使用したアジャイルプランニングは、ますます需要が高まるにつれて計画手順の数によって制限される。本稿では,変動時間ステップを導入し,予測水平長と組み合わせることで,これらの制約に対処することを提案する。簡易な点質量運動プリミティブは、四重項力学の微分平坦性と、平坦な出力空間における可能な軌道の軌道生成を利用するために用いられる。
論文参考訳（メタデータ） (2025-03-18T11:59:24Z)
Safe Multi-Agent Navigation guided by Goal-Conditioned Safe Reinforcement Learning [2.082168997977094]
計画と安全RLの双方の長所を統合する新しい手法を提案する。提案手法は安全でないエッジを抽出し,エージェントが目標に到達するまで追従するウェイポイントベースのプランを生成する。特に、Conflict-Based Search (CBS)を活用して、複数のエージェントのためのウェイポイントベースのプランを作成し、拡張された地平線上の安全なナビゲーションを可能にします。
論文参考訳（メタデータ） (2025-02-25T03:38:52Z)
SCoTT: Wireless-Aware Path Planning with Vision Language Models and Strategic Chains-of-Thought [78.53885607559958]
複雑な無線環境における経路計画を実現するために,視覚言語モデル(VLM)を用いた新しい手法を提案する。この目的のために、実世界の無線レイトレーシングデータを用いたデジタルツインからの洞察を探索する。その結果, SCoTT はDP-WA* と比較して非常に近い平均経路ゲインを実現し, 同時に一貫した経路長が得られることがわかった。
論文参考訳（メタデータ） (2024-11-27T10:45:49Z)
Multi-agent Path Finding for Timed Tasks using Evolutionary Games [1.3023548510259344]
我々のアルゴリズムは,少なくとも1桁の精度で深部RL法よりも高速であることを示す。以上の結果から,他の方法と比較してエージェント数の増加にともなってスケールが向上することが示唆された。
論文参考訳（メタデータ） (2024-11-15T20:10:25Z)
Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文参考訳（メタデータ） (2024-04-04T06:24:11Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
AI planning in the imagination: High-level planning on learned abstract search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文参考訳（メタデータ） (2023-08-16T22:47:16Z)
Goal-Conditioned Reinforcement Learning with Disentanglement-based Reachability Planning [14.370384505230597]
本稿では,Reachability Planning (REPlan) と組み合わせた目標条件付きRLアルゴリズムを提案する。我々のREPlanは、時間的に拡張されたタスクを解く上で、従来の最先端の手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-07-20T13:08:14Z)
Planning Immediate Landmarks of Targets for Model-Free Skill Transfer across Agents [34.56191646231944]
我々はPILoT、即時ターゲットのランドマーク計画を提案する。 PILoTはゴール条件のステートプランナーを学習し、ゴールプランナーを蒸留してモデルなしのスタイルで即時ランドマークを計画する。 PILoTは,アクション空間やダイナミックスを横断する数発のショット転送など,様々なトランスファーの課題に対して有効であることを示す。
論文参考訳（メタデータ） (2022-12-18T08:03:21Z)
Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文参考訳（メタデータ） (2022-10-28T05:30:49Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Deep Interactive Motion Prediction and Planning: Playing Games with Motion Prediction Models [162.21629604674388]
本研究は,新しい対話型マルチエージェントニューラルネットワークポリシを予測モデルの一部として使用するゲーム理論モデル予測制御器(MPC)を提案する。本手法の成功の基礎は,周辺エージェントの状態と地図情報に基づいて車両を操縦できる,新しいマルチエージェントポリシーネットワークの設計である。
論文参考訳（メタデータ） (2022-04-05T17:58:18Z)
UAV Path Planning for Wireless Data Harvesting: A Deep Reinforcement Learning Approach [18.266087952180733]
本稿では,IoT(Internet of Things)デバイスからのUAV対応データ収集に対するエンドツーエンド強化学習手法を提案する。自律ドローンは、限られた飛行時間と障害物回避を受ける分散センサーノードからデータを収集する。提案するネットワークアーキテクチャにより,エージェントが様々なシナリオパラメータの移動決定を行うことができることを示す。
論文参考訳（メタデータ） (2020-07-01T15:14:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。