論文の概要: GoalSwarm: Multi-UAV Semantic Coordination for Open-Vocabulary Object Navigation
- arxiv url: http://arxiv.org/abs/2603.12908v2
- Date: Mon, 16 Mar 2026 17:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.760599
- Title: GoalSwarm: Multi-UAV Semantic Coordination for Open-Vocabulary Object Navigation
- Title(参考訳): GoalSwarm:オープン語彙オブジェクトナビゲーションのためのマルチUAVセマンティックコーディネーション
- Authors: MoniJesu Wonders James, Amir Atef Habel, Aleksey Fedoseev, Dzmitry Tsetserokou,
- Abstract要約: GoalSwarmは、ゼロショットセマンティックなオブジェクトゴールナビゲーションのための、完全に分散化されたマルチUAVフレームワークである。
それぞれのUAVは、共有された軽量な2Dトップダウンセマンティック占有マップを共同で構築する。
GoalSwarmのコアコントリビューションは,(1)ゼロショット基盤モデルの統合 – オープン語彙検出とピクセルレベルのセグメンテーションのためのSAM3,(2)複数視点検出の信頼性を画素ごとのゴール関連分布に融合するベイズ値マップである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooperative visual semantic navigation is a foundational capability for aerial robot teams operating in unknown environments. However, achieving robust open-vocabulary object-goal navigation remains challenging due to the computational constraints of deploying heavy perception models onboard and the complexity of decentralized multi-agent coordination. We present GoalSwarm, a fully decentralized multi-UAV framework for zero-shot semantic object-goal navigation. Each UAV collaboratively constructs a shared, lightweight 2D top-down semantic occupancy map by projecting depth observations from aerial vantage points, eliminating the computational burden of full 3D representations while preserving essential geometric and semantic structure. The core contributions of GoalSwarm are threefold: (1) integration of zero-shot foundation model -- SAM3 for open vocabulary detection and pixel-level segmentation, enabling open-vocabulary target identification without task-specific training; (2) a Bayesian Value Map that fuses multi-viewpoint detection confidences into a per-pixel goal-relevance distribution, enabling informed frontier scoring via Upper Confidence Bound (UCB) exploration; and (3) a decentralized coordination strategy combining semantic frontier extraction, cost-utility bidding with geodesic path costs, and spatial separation penalties to minimize redundant exploration across the swarm.
- Abstract(参考訳): 協調的な視覚的セマンティックナビゲーションは、未知の環境で動作する空中ロボットチームの基本機能である。
しかし、重い知覚モデルを配置する計算上の制約と分散マルチエージェント調整の複雑さのため、堅牢なオープン語彙オブジェクトゴールナビゲーションを実現することは依然として困難である。
我々は、ゼロショットセマンティックなオブジェクトゴールナビゲーションのための、完全に分散化されたマルチUAVフレームワークであるGoalSwarmを紹介する。
各UAVは、空の浮動小数点から深度観測を投影し、基本的な幾何学的・意味的構造を維持しつつ、完全な3D表現の計算負担をなくし、共有された軽量な2Dトップダウンセマンティック占有マップを共同構築する。
GoalSwarmのコアコントリビューションは,(1)ゼロショット基盤モデルの統合,(3)オープンボキャブラリ検出とピクセルレベルのセグメンテーションのためのSAM3,(2)タスク固有のトレーニングを使わずにオープンボキャブラリターゲット識別を可能にするBayesian Value Map,(2)複数視点検出の信頼性を画素ごとのゴール関連分布に融合させ,上部信頼境界(UCB)探索による情報フロンティアスコアの獲得を可能にするBayesian Value Map,(3)セマンティックフロンティア抽出と地磁気パスコストによる費用対効果入札を組み合わせた分散協調戦略,そして,群集間の冗長な探索を最小化する空間分離ペナルティである。
関連論文リスト
- Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection [19.500762008628254]
OVAD(Open-Vocabulary Aerial Detection)とRSVG(Remote Sensing Visual Grounding)は,航空シーン理解のための2つの重要なパラダイムとして登場した。
両パラダイムを結合型アーキテクチャにブリッジする最初の統一フレームワークであるOTA-Detを提案する。
論文 参考訳(メタデータ) (2026-02-08T05:29:01Z) - APEX: A Decoupled Memory-based Explorer for Asynchronous Aerial Object Goal Navigation [26.546610806602803]
Embodied AIの挑戦的なフロンティアであるAerial Object Goal Navigationでは、無人航空機(UAV)エージェントが視覚的知覚と言語記述のみを使用して、特定のターゲットを自律的に探索、推論、識別する必要がある。
既存の手法は、大気環境における複雑な空間表現の記憶、信頼性と解釈可能な行動決定、非効率な探索と情報収集に苦慮している。
我々は,複雑な空中環境下での効率的な探索と目標獲得を目的とした,新しい階層型エージェントであるtextAPEXを紹介した。
論文 参考訳(メタデータ) (2026-01-31T06:27:57Z) - VOIC: Visible-Occluded Decoupling for Monocular 3D Semantic Scene Completion [6.144392125326462]
カメラベースのセマンティックシーンコンプリートは、自律走行とロボットシーン理解にとって重要なタスクである。
既存の方法は、通常、エンドツーエンドの2D-to-3D機能リフトとボクセル補完に焦点を当てている。
本稿では,SSCを視覚領域の意味認識と隠蔽領域のシーン補完に明示的に分離する新しいデュアルデコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-22T02:05:45Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [20.603433987118837]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - S3Net: 3D LiDAR Sparse Semantic Segmentation Network [1.330528227599978]
S3NetはLiDARポイントクラウドセマンティックセグメンテーションのための新しい畳み込みニューラルネットワークである。
sparse intra-channel attention module (sintraam)とsparse inter-channel attention module (sinteram)で構成されるエンコーダ-デコーダバックボーンを採用する。
論文 参考訳(メタデータ) (2021-03-15T22:15:24Z) - PC-RGNN: Point Cloud Completion and Graph Neural Network for 3D Object
Detection [57.49788100647103]
LiDARベースの3Dオブジェクト検出は、自動運転にとって重要なタスクです。
現在のアプローチでは、遠方および閉ざされた物体の偏りと部分的な点雲に苦しむ。
本稿では,この課題を2つの解決法で解決する新しい二段階アプローチ,pc-rgnnを提案する。
論文 参考訳(メタデータ) (2020-12-18T18:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。