論文の概要: Multimodal LLM Guided Exploration and Active Mapping using Fisher Information
- arxiv url: http://arxiv.org/abs/2410.17422v2
- Date: Wed, 04 Dec 2024 22:03:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 16:26:07.87865
- Title: Multimodal LLM Guided Exploration and Active Mapping using Fisher Information
- Title(参考訳): 漁業情報を用いたマルチモーダルLLMガイド探査とアクティブマッピング
- Authors: Wen Jiang, Boshu Lei, Katrina Ashton, Kostas Daniilidis,
- Abstract要約: 本稿では,3次元ガウススプラッティング表現を用いた長期探査目標と短期行動のためのアクティブマッピングシステムを提案する。
GibsonとHabitat-Matterportの3Dデータセットで行った実験は、提案手法の最先端の結果を示している。
- 参考スコア(独自算出の注目度): 26.602364433232445
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present an active mapping system that could plan for long-horizon exploration goals and short-term actions with a 3D Gaussian Splatting (3DGS) representation. Existing methods either did not take advantage of recent developments in multimodal Large Language Models (LLM) or did not consider challenges in localization uncertainty, which is critical in embodied agents. We propose employing multimodal LLMs for long-horizon planning in conjunction with detailed motion planning using our information-based algorithm. By leveraging high-quality view synthesis from our 3DGS representation, our method employs a multimodal LLM as a zero-shot planner for long-horizon exploration goals from the semantic perspective. We also introduce an uncertainty-aware path proposal and selection algorithm that balances the dual objectives of maximizing the information gain for the environment while minimizing the cost of localization errors. Experiments conducted on the Gibson and Habitat-Matterport 3D datasets demonstrate state-of-the-art results of the proposed method.
- Abstract(参考訳): 本稿では,3次元ガウススプラッティング(3DGS)表現を用いた長期探査目標と短期行動のためのアクティブマッピングシステムを提案する。
既存の手法は, マルチモーダル大規模言語モデル (LLM) の最近の発展を生かしてはいない。
本稿では,多モードLLMを用いた長期計画と情報ベースアルゴリズムを用いた詳細な動き計画を提案する。
我々の3DGS表現から高品質なビュー合成を活用することで、セマンティックの観点からの長期探査目標のためのゼロショットプランナーとしてマルチモーダルLCMを用いる。
また,環境情報ゲインの最大化と局所化誤差の最小化の両目的を両立させる不確実性認識経路の提案と選択アルゴリズムも導入する。
GibsonとHabitat-Matterportの3Dデータセットで行った実験は、提案手法の最先端の結果を示している。
関連論文リスト
- Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。
本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。
本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文 参考訳(メタデータ) (2025-03-29T09:34:16Z) - NextBestPath: Efficient 3D Mapping of Unseen Environments [33.62355071343121]
従来のアプローチでは、主にエージェントの位置に近い次の最良のビューを予測するが、これは局所的に立ち往生する傾向にある。
本研究では,Dom ゲーム用のマップ生成器を備えた新しいデータセット AiMDoom を導入し,多様な屋内環境におけるアクティブな3Dマッピングのベンチマークを行う。
我々は、近視視点のみに焦点をあてるのではなく、長期的な目標を予測できる、NBP(Next-best-path)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-07T23:18:08Z) - 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z) - Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering [47.879695094904015]
そこで本研究では,地上ロボット軌道データセットのための新しいビューレンダリングアルゴリズムであるMode-GSを提案する。
提案手法は,既存の3次元ガウススプラッティングアルゴリズムの限界を克服する目的で,アンカー付きガウススプラッターを用いている。
提案手法は,PSNR,SSIM,LPIPSの計測値に基づいて,自由軌道パターンを持つ地上環境におけるレンダリング性能を向上する。
論文 参考訳(メタデータ) (2024-10-06T23:01:57Z) - Towards Real-Time Gaussian Splatting: Accelerating 3DGS through Photometric SLAM [4.08109886949724]
我々は,モノクロ光度SLAMシステムであるDirect Sparse Odometryと3DGSを統合することを提案する。
予備実験により, 直接スパースオドメトリーを用いたクラウド出力は, 標準構造と対照的に, 高品質なレンダリングを実現するのに必要なトレーニング時間を著しく短縮することが示された。
論文 参考訳(メタデータ) (2024-08-07T15:01:08Z) - IG-SLAM: Instant Gaussian SLAM [6.228980850646457]
3D Gaussian SplattingはSLAMシステムにおける代替シーン表現として期待できる結果を示した。
本稿では,RGBのみの高密度SLAMシステムであるIG-SLAMについて述べる。
我々は、最先端のRGBのみのSLAMシステムと競合する性能を示し、高速な動作速度を実現する。
論文 参考訳(メタデータ) (2024-08-02T09:07:31Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Embodied AI in Mobile Robots: Coverage Path Planning with Large Language Models [6.860460230412773]
移動体エージェントのためのLLM方式の経路計画フレームワークを提案する。
提案する多層アーキテクチャは,経路計画段階におけるLPMを用いて,移動エージェントの低レベルアクチュエータと統合する。
本実験により,LLMの2次元平面推論能力と完全カバレッジパス計画タスクを改善することができることが示された。
論文 参考訳(メタデータ) (2024-07-02T12:38:46Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - World Models with Hints of Large Language Models for Goal Achieving [56.91610333715712]
強化学習は、長期のタスクやスパース目標に直面して苦労する。
人間の認知にインスパイアされた新しいマルチモーダルモデルベースRLアプローチDreaming with Large Language Models (M.DLL.M)を提案する。
論文 参考訳(メタデータ) (2024-06-11T15:49:08Z) - MotionGS : Compact Gaussian Splatting SLAM by Motion Filter [10.979138131565238]
NeRFベースのSLAMは急増しているが、3DGSベースのSLAMは希薄である。
本稿では, 深部視覚特徴, 二重選択, 3DGSを融合した新しい3DGSベースのSLAM手法を提案する。
論文 参考訳(メタデータ) (2024-05-18T00:47:29Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - CG-SLAM: Efficient Dense RGB-D SLAM in a Consistent Uncertainty-aware 3D Gaussian Field [46.8198987091734]
本稿では,新しい不確実性を考慮した3次元ガウス場に基づく高密度RGB-D SLAMシステム,すなわちCG-SLAMを提案する。
各種データセットの実験により、CG-SLAMは、最大15Hzの追従速度で優れた追従性能とマッピング性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-24T11:19:59Z) - GaussianPro: 3D Gaussian Splatting with Progressive Propagation [49.918797726059545]
3DGSはStructure-from-Motion (SfM)技術によって生成されるポイントクラウドに大きく依存している。
本稿では, 3次元ガウスの密度化を導くために, プログレッシブ・プログレッシブ・プログレッシブ・ストラテジーを適用した新しい手法を提案する。
提案手法はデータセット上の3DGSを大幅に上回り,PSNRでは1.15dBの改善が見られた。
論文 参考訳(メタデータ) (2024-02-22T16:00:20Z) - MoD-SLAM: Monocular Dense Mapping for Unbounded 3D Scene Reconstruction [2.3630527334737104]
MoD-SLAMは、非有界シーンにおけるリアルタイムな3次元再構成を可能にする、最初のモノクラーNeRFを用いた高密度マッピング法である。
追跡処理にロバストな深度損失項を導入することにより,大規模シーンにおけるより正確なポーズ推定を実現する。
2つの標準データセットを用いた実験により, MoD-SLAMは競争性能を向上し, 3次元再構成の精度を最大30%, 15%向上した。
論文 参考訳(メタデータ) (2024-02-06T07:07:33Z) - FIT-SLAM -- Fisher Information and Traversability estimation-based
Active SLAM for exploration in 3D environments [1.4474137122906163]
アクティブビジュアルSLAMは、地上ロボットのためのデニッドサブテレイン環境と屋外環境における幅広い応用を見出す。
探索ミッション中に目標選択と目標に向けた経路計画に知覚的考察を取り入れることが不可欠である。
本研究では,無人地上車両(UGV)を対象とした新しい探査手法であるFIT-SLAMを提案する。
論文 参考訳(メタデータ) (2024-01-17T16:46:38Z) - A Survey on 3D Gaussian Splatting [51.96747208581275]
3D Gaussian splatting (GS) は、明示的なラディアンス場とコンピュータグラフィックスの領域において、トランスフォーメーション技術として登場した。
本稿では,3D GSの領域における最近の発展と重要な貢献について,初めて体系的に概説する。
前例のないレンダリング速度を実現することで、3D GSは、仮想現実からインタラクティブメディアなど、数多くのアプリケーションを開くことができる。
論文 参考訳(メタデータ) (2024-01-08T13:42:59Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - SayPlan: Grounding Large Language Models using 3D Scene Graphs for
Scalable Robot Task Planning [15.346150968195015]
本研究では,3次元シーングラフ(DSG)表現を用いた大規模タスクプランニングのスケーラブルなアプローチであるSayPlanを紹介する。
我々は,最大3フロア,36部屋,140部屋までの大規模な2つの環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-07-12T12:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。