論文の概要: Multimodal LLM Guided Exploration and Active Mapping using Fisher Information
- arxiv url: http://arxiv.org/abs/2410.17422v2
- Date: Wed, 04 Dec 2024 22:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:36:49.188740
- Title: Multimodal LLM Guided Exploration and Active Mapping using Fisher Information
- Title(参考訳): 漁業情報を用いたマルチモーダルLLMガイド探査とアクティブマッピング
- Authors: Wen Jiang, Boshu Lei, Katrina Ashton, Kostas Daniilidis,
- Abstract要約: 本稿では,3次元ガウススプラッティング表現を用いた長期探査目標と短期行動のためのアクティブマッピングシステムを提案する。
GibsonとHabitat-Matterportの3Dデータセットで行った実験は、提案手法の最先端の結果を示している。
- 参考スコア(独自算出の注目度): 26.602364433232445
- License:
- Abstract: We present an active mapping system that could plan for long-horizon exploration goals and short-term actions with a 3D Gaussian Splatting (3DGS) representation. Existing methods either did not take advantage of recent developments in multimodal Large Language Models (LLM) or did not consider challenges in localization uncertainty, which is critical in embodied agents. We propose employing multimodal LLMs for long-horizon planning in conjunction with detailed motion planning using our information-based algorithm. By leveraging high-quality view synthesis from our 3DGS representation, our method employs a multimodal LLM as a zero-shot planner for long-horizon exploration goals from the semantic perspective. We also introduce an uncertainty-aware path proposal and selection algorithm that balances the dual objectives of maximizing the information gain for the environment while minimizing the cost of localization errors. Experiments conducted on the Gibson and Habitat-Matterport 3D datasets demonstrate state-of-the-art results of the proposed method.
- Abstract(参考訳): 本稿では,3次元ガウススプラッティング(3DGS)表現を用いた長期探査目標と短期行動のためのアクティブマッピングシステムを提案する。
既存の手法は, マルチモーダル大規模言語モデル (LLM) の最近の発展を生かしてはいない。
本稿では,多モードLLMを用いた長期計画と情報ベースアルゴリズムを用いた詳細な動き計画を提案する。
我々の3DGS表現から高品質なビュー合成を活用することで、セマンティックの観点からの長期探査目標のためのゼロショットプランナーとしてマルチモーダルLCMを用いる。
また,環境情報ゲインの最大化と局所化誤差の最小化の両目的を両立させる不確実性認識経路の提案と選択アルゴリズムも導入する。
GibsonとHabitat-Matterportの3Dデータセットで行った実験は、提案手法の最先端の結果を示している。
関連論文リスト
- NextBestPath: Efficient 3D Mapping of Unseen Environments [33.62355071343121]
従来のアプローチでは、主にエージェントの位置に近い次の最良のビューを予測するが、これは局所的に立ち往生する傾向にある。
本研究では,Dom ゲーム用のマップ生成器を備えた新しいデータセット AiMDoom を導入し,多様な屋内環境におけるアクティブな3Dマッピングのベンチマークを行う。
我々は、近視視点のみに焦点をあてるのではなく、長期的な目標を予測できる、NBP(Next-best-path)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-07T23:18:08Z) - 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z) - DELTA: Dense Efficient Long-range 3D Tracking for any video [82.26753323263009]
DELTAは3次元空間内のすべてのピクセルを効率よく追跡し,ビデオ全体の正確な動き推定を可能にする手法である。
提案手法では,低分解能追跡のためのグローバルアテンション機構と,高分解能予測を実現するためのトランスフォーマーベースアップサンプラーを併用する。
提案手法は,3次元空間における細粒度・長期動作追跡を必要とするアプリケーションに対して,ロバストなソリューションを提供する。
論文 参考訳(メタデータ) (2024-10-31T17:59:01Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models [6.860460230412773]
移動体エージェントのためのLLM方式の経路計画フレームワークを提案する。
提案する多層アーキテクチャは,経路計画段階におけるLPMを用いて,移動エージェントの低レベルアクチュエータと統合する。
本実験により,LLMの2次元平面推論能力と完全カバレッジパス計画タスクを改善することができることが示された。
論文 参考訳(メタデータ) (2024-07-02T12:38:46Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。
人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文 参考訳(メタデータ) (2024-06-11T15:49:08Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。