Fugu-MT 論文翻訳(概要): Decentralized End-to-End Multi-AAV Pursuit Using Predictive Spatio-Temporal Observation via Deep Reinforcement Learning

論文の概要: Decentralized End-to-End Multi-AAV Pursuit Using Predictive Spatio-Temporal Observation via Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2603.24238v1
Date: Wed, 25 Mar 2026 12:23:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.282917
Title: Decentralized End-to-End Multi-AAV Pursuit Using Predictive Spatio-Temporal Observation via Deep Reinforcement Learning
Title（参考訳）: 深部強化学習による予測時空間観測を用いた分散型エンドツーエンドマルチAAV探索
Authors: Yude Li, Zhexuan Zhou, Huizhe Li, Yanke Sun, Yenan Wu, Yichen Lai, Yiming Wang, Youmin Gong, Jie Mei,
Abstract要約: 乱雑な環境における分散的協調的追跡は、自律的な空中群れにとって困難である。本稿では,LDARの生観測を直接連続制御コマンドにマッピングする分散エンドツーエンドのマルチエージェント強化学習フレームワークを提案する。単一の分散ポリシにより、エージェントは静的障害をナビゲートし、動的ターゲットをインターセプトし、協調的な囲いを維持することができる。
参考スコア（独自算出の注目度）: 5.002036203828793
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Decentralized cooperative pursuit in cluttered environments is challenging for autonomous aerial swarms, especially under partial and noisy perception. Existing methods often rely on abstracted geometric features or privileged ground-truth states, and therefore sidestep perceptual uncertainty in real-world settings. We propose a decentralized end-to-end multi-agent reinforcement learning (MARL) framework that maps raw LiDAR observations directly to continuous control commands. Central to the framework is the Predictive Spatio-Temporal Observation (PSTO), an egocentric grid representation that aligns obstacle geometry with predictive adversarial intent and teammate motion in a unified, fixed-resolution projection. Built on PSTO, a single decentralized policy enables agents to navigate static obstacles, intercept dynamic targets, and maintain cooperative encirclement. Simulations demonstrate that the proposed method achieves superior capture efficiency and competitive success rates compared to state-of-the-art learning-based approaches relying on privileged obstacle information. Furthermore, the unified policy scales seamlessly across different team sizes without retraining. Finally, fully autonomous outdoor experiments validate the framework on a quadrotor swarm relying on only onboard sensing and computing.
Abstract（参考訳）: 乱雑な環境における分散的協調的追跡は、特に部分的および雑音的な知覚の下で、自律的な空中群れにとって困難である。既存の手法は、しばしば抽象的な幾何学的特徴や特権的な地平状態に依存しており、したがって現実世界の設定における知覚的不確実性はサイドステップである。本稿では,LiDAR観測を直接連続制御コマンドにマッピングする分散エンドツーエンドマルチエージェント強化学習(MARL)フレームワークを提案する。フレームワークの中心となるのは予測時空間観測(Predictive Spatio-Temporal Observation,PSTO)であり、これはエゴセントリックなグリッド表現で、障害物幾何学と予測逆方向とチームメイトの動きを、統一された固定解像度の投影で整列する。 PSTO上に構築された単一の分散ポリシにより、エージェントは静的障害をナビゲートし、動的ターゲットをインターセプトし、協調的な囲いを維持することができる。シミュレーションにより,提案手法は,特権的障害物情報に依存した最先端の学習ベースアプローチと比較して,捕集効率と競争的成功率に優れることを示した。さらに、統一されたポリシーは、再トレーニングすることなく、異なるチームサイズでシームレスにスケールします。最後に、完全に自律的な屋外実験により、このフレームワークは、搭載されたセンサーとコンピューティングのみに依存して、四角形スウォーム上で検証される。

関連論文リスト

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文参考訳（メタデータ） (2026-03-03T18:59:29Z)
OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-11T09:41:36Z)
Agentic Spatio-Temporal Grounding via Collaborative Reasoning [80.83158605034465]
時間的ビデオグラウンド(Temporal Video Grounding)は、テキストクエリが与えられたビデオ内の対象物または人の時間的チューブを検索することを目的としている。本稿では,STVGの課題に対して,オープンワールドおよびトレーニングフリーシナリオに向けたエージェント時空間グラウンド(ASTG)フレームワークを提案する。具体的には、現代多言語モデル(MLLM)を活用した2つの特殊エージェントSRA(Spatial Reasoning Agent)とTRA(Temporal Reasoning Agent)である。人気のあるベンチマークの実験は、既存の弱教師付きおよびゼロショットアプローチをマージンで上回る提案手法の優位性を実証している。
論文参考訳（メタデータ） (2026-02-10T10:16:27Z)
Curriculum-Based Reinforcement Learning for Autonomous UAV Navigation in Unknown Curved Tubular Conduit [0.0]
そこで本研究では,無人機が未知の3次元管の形状を事前に知ることなくナビゲートできる強化学習手法を提案する。決定論的ベースラインとして使用されるPure Pursuitアルゴリズムは、センターラインへの明示的なアクセスの恩恵を受ける。直接可視性、指向性メモリ、LiDAR対称性の組み合わせに基づくターンネゴシエーション機構は、安定したナビゲーションを確保するために不可欠である。
論文参考訳（メタデータ） (2025-12-11T18:57:29Z)
Multi-Agent Deep Reinforcement Learning for Collaborative UAV Relay Networks under Jamming Atatcks [36.380478794869234]
本稿では,この課題を,分散実行トレーニング(CTDE)フレームワークを用いて解決したMARL(Multi-Agent Reinforcement Learning)問題として定式化する。提案手法はベースラインを著しく上回り,システム全体のスループットを約50%向上し,同時にほぼゼロの衝突速度を実現した。重要な発見は、エージェントが明示的なプログラミングなしに創発的なアンチジャミング戦略を開発することである。
論文参考訳（メタデータ） (2025-12-09T08:11:21Z)
End-to-End Visual Autonomous Parking via Control-Aided Attention [30.52881549605385]
CAA-Policyは、正確な駐車のためのエンドツーエンドの模倣学習システムである。制御信号は、新しい制御支援注意機構を通じて視覚的注意の学習を導くことができる。
論文参考訳（メタデータ） (2025-09-14T04:51:19Z)
HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection [66.42229859018775]
我々は,HUWSOD(HuWSOD)と呼ばれる,統一・高容量弱教師付きオブジェクト検出(WSOD)ネットワークを導入する。 HUWSODには、自己管理された提案生成器と、従来のオブジェクト提案を置き換えるために、マルチレートで再構成されたピラミッドを備えたオートエンコーダ提案生成器が組み込まれている。提案手法は,よく設計されたオフラインオブジェクト提案と大きく異なるが,WSOD訓練には有効であることを示す。
論文参考訳（メタデータ） (2024-06-27T17:59:49Z)
Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment [12.122881147337505]
マルチエージェント強化学習に基づく分散実行手法を用いた新しい集中型学習法を提案する。このアプローチでは、エージェントは集中型プランナーとのみ通信し、オンラインで分散的な決定を行う。訓練効率を高めるため,多段階強化学習において多段階値収束を行う。
論文参考訳（メタデータ） (2023-10-25T14:21:22Z)
In-Distribution Barrier Functions: Self-Supervised Policy Filters that Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文参考訳（メタデータ） (2023-01-27T22:28:19Z)
Decentralized Swarm Collision Avoidance for Quadrotors via End-to-End Reinforcement Learning [28.592704336574158]
我々は、スターリングの群れから生物学的インスピレーションを受け、その洞察をエンドツーエンドの学習された分散衝突回避に適用する。生体模倣トポロジカル相互作用規則に基づく新しいスケーラブルな観測モデルを提案する。学習したポリシーはシミュレーションでテストされ、その後実世界のドローンに転送され、実世界の応用性を検証する。
論文参考訳（メタデータ） (2021-04-30T11:19:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。