論文の概要: TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making
- arxiv url: http://arxiv.org/abs/2511.17225v1
- Date: Fri, 21 Nov 2025 13:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.034918
- Title: TP-MDDN: Task-Preferenced Multi-Demand-Driven Navigation with Autonomous Decision-Making
- Title(参考訳): TP-MDDN:自律的意思決定によるタスク適合型マルチデスマン駆動ナビゲーション
- Authors: Shanshan Li, Da Huang, Yu He, Yanwei Fu, Yu-Gang Jiang, Xiangyang Xue,
- Abstract要約: Task-Preferenced Multi-Demand-Driven Navigation (TP-MDDN)は、複数のサブオンデマンドと明示的なタスク嗜好を含む長距離ナビゲーションのための新しいベンチマークである。
空間記憶のために,3次元点雲蓄積と2次元意味マッピングを組み合わせたMASMapを設計した。
本手法は,認識精度とナビゲーションの堅牢性の両方において,最先端のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 90.18833928208333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In daily life, people often move through spaces to find objects that meet their needs, posing a key challenge in embodied AI. Traditional Demand-Driven Navigation (DDN) handles one need at a time but does not reflect the complexity of real-world tasks involving multiple needs and personal choices. To bridge this gap, we introduce Task-Preferenced Multi-Demand-Driven Navigation (TP-MDDN), a new benchmark for long-horizon navigation involving multiple sub-demands with explicit task preferences. To solve TP-MDDN, we propose AWMSystem, an autonomous decision-making system composed of three key modules: BreakLLM (instruction decomposition), LocateLLM (goal selection), and StatusMLLM (task monitoring). For spatial memory, we design MASMap, which combines 3D point cloud accumulation with 2D semantic mapping for accurate and efficient environmental understanding. Our Dual-Tempo action generation framework integrates zero-shot planning with policy-based fine control, and is further supported by an Adaptive Error Corrector that handles failure cases in real time. Experiments demonstrate that our approach outperforms state-of-the-art baselines in both perception accuracy and navigation robustness.
- Abstract(参考訳): 日常生活において、人々はしばしば、自分のニーズを満たすオブジェクトを見つけるために空間を移動し、AIを具現化する上で重要な課題を提起する。
従来の需要駆動ナビゲーション(DDN)は、一つのニーズを一度に処理するが、複数のニーズと個人の選択を含む現実的なタスクの複雑さを反映しない。
このギャップを埋めるため,タスク優先型マルチデマンド駆動ナビゲーション (TP-MDDN) を導入する。
TP-MDDNを解決するために,BreakLLM(命令分解),LocateLLM(ゴール選択),StatusMLLM(タスク監視)の3つの重要なモジュールからなる自動意思決定システムであるAWMSystemを提案する。
空間記憶のために,3次元点雲蓄積と2次元意味マッピングを組み合わせたMASMapを設計した。
我々のDual-Tempoアクション生成フレームワークは、ゼロショットプランニングとポリシーベースのファインコントロールを統合し、障害ケースをリアルタイムで処理するAdaptive Error Correctorによってさらにサポートされています。
実験により,本手法は認識精度とナビゲーションの堅牢性の両方において,最先端のベースラインよりも優れていることが示された。
関連論文リスト
- TEM^3-Learning: Time-Efficient Multimodal Multi-Task Learning for Advanced Assistive Driving [22.22943635900334]
TEM3-Learningは、ドライバーの感情認識、運転者行動認識、交通状況認識、車両行動認識を共同で最適化する新しいフレームワークである。
4つのタスクにまたがって最先端の精度を実現し、600万パラメータ未満の軽量アーキテクチャを維持し、142.32 FPSの推論速度を実現している。
論文 参考訳(メタデータ) (2025-06-22T16:12:27Z) - M3Net: Multimodal Multi-task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving [48.17490295484055]
M3Netは、自動運転の検知、セグメンテーション、および3D占有率予測に同時に取り組む新しいネットワークである。
M3NetはnuScenesベンチマークで最先端のマルチタスク学習性能を達成する。
論文 参考訳(メタデータ) (2025-03-23T15:08:09Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - UltimateDO: An Efficient Framework to Marry Occupancy Prediction with 3D Object Detection via Channel2height [2.975860548186652]
現代の自律運転システムでは、作業と3Dオブジェクト検出が標準的な2つのタスクである。
高速な3次元物体検出と占有予測(UltimateDO)を実現する手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T13:14:13Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。