論文の概要: Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs
- arxiv url: http://arxiv.org/abs/2407.10743v1
- Date: Mon, 15 Jul 2024 14:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:01:44.760237
- Title: Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs
- Title(参考訳): データグラフを用いたLMMによる3次元推論の大規模ロボットミッション環境への応用
- Authors: W. J. Meijer, A. C. Kemmeren, E. H. J. Riemens, J. E. Fransman, M. van Bekkum, G. J. Burghouts, J. D. van Mil,
- Abstract要約: 本稿では,LMM(Large Multimodal Models)を拡張性のある3D環境に拡張するという課題に対処する。
我々は,LMMが大規模環境の小さな部分を反復的に問合せすることのできる,データグラフ構造を利用した新しい手法を提案する。
本稿では,このデータグラフを2つの3次元シーン言語ユースケースに活用する可能性を,探索・救助ミッションの例で示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of scaling Large Multimodal Models (LMMs) to expansive 3D environments. Solving this open problem is especially relevant for robot deployment in many first-responder scenarios, such as search-and-rescue missions that cover vast spaces. The use of LMMs in these settings is currently hampered by the strict context windows that limit the LMM's input size. We therefore introduce a novel approach that utilizes a datagraph structure, which allows the LMM to iteratively query smaller sections of a large environment. Using the datagraph in conjunction with graph traversal algorithms, we can prioritize the most relevant locations to the query, thereby improving the scalability of 3D scene language tasks. We illustrate the datagraph using 3D scenes, but these can be easily substituted by other dense modalities that represent the environment, such as pointclouds or Gaussian splats. We demonstrate the potential to use the datagraph for two 3D scene language task use cases, in a search-and-rescue mission example.
- Abstract(参考訳): 本稿では,LMM(Large Multimodal Models)を拡張性のある3D環境に拡張するという課題に対処する。
このオープンな問題を解決することは、広い空間をカバーする捜索救助任務など、多くの第一対応シナリオにおけるロボットの展開に特に関係している。
これらの設定でのLMMの使用は、LMMの入力サイズを制限する厳密なコンテキストウィンドウによって妨げられている。
そこで我々は,LMMが大規模環境の小さな部分を反復的に問合せすることのできる,データグラフ構造を利用した新しい手法を提案する。
データグラフをグラフトラバースアルゴリズムと組み合わせることで、クエリに最も関連性の高い場所を優先順位付けし、3Dシーン言語タスクのスケーラビリティを向上させることができる。
データグラフを3次元のシーンで記述するが、これはポイントクラウドやガウススプラットなど、環境を表す高密度なモダリティによって容易に置き換えることができる。
本稿では,このデータグラフを2つの3次元シーン言語タスクユースケースに活用する可能性を,探索・救助ミッションの例で示す。
関連論文リスト
- OpenSU3D: Open World 3D Scene Understanding using Foundation Models [2.1262749936758216]
オープンセット, インスタンスレベルの3次元シーン表現を構築するための, 新規でスケーラブルなアプローチを提案する。
既存の方法は、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題を必要とする。
ゼロショット一般化機能を示すScanNetとReplicaのデータセットから,複数のシーンに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-19T13:01:12Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
本稿では,包括的3次元理解のための新しい大規模言語モデルReason3Dを紹介する。
拡張シーン内の小さな物体を見つけるための階層型マスクデコーダを提案する。
大規模なScanNetとMatterport3Dデータセットにおいて、Reason3Dが顕著な結果が得られることを検証する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
3D視覚タスクをタスク固有の命令テンプレートを使用して言語形式に変換する自然なアプローチを提供する。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - MM3DGS SLAM: Multi-modal 3D Gaussian Splatting for SLAM Using Vision, Depth, and Inertial Measurements [59.70107451308687]
カメラ画像と慣性測定による地図表現に3Dガウスアンを用いることで、精度の高いSLAMが実現できることを示す。
我々の手法であるMM3DGSは、より高速なスケール認識と軌道追跡の改善により、事前レンダリングの限界に対処する。
また,カメラと慣性測定ユニットを備えた移動ロボットから収集したマルチモーダルデータセットUT-MMもリリースした。
論文 参考訳(メタデータ) (2024-04-01T04:57:41Z) - DeepMIF: Deep Monotonic Implicit Fields for Large-Scale LiDAR 3D Mapping [46.80755234561584]
最近の学習ベース手法は,3次元シーンの表面を近似するために,ニューラル暗黙表現と最適化可能な特徴グリッドを統合している。
この作業では、LiDARデータを正確にフィッティングすることから離れ、代わりにネットワークが3D空間で定義された非メトリックモノトニック暗黙フィールドを最適化する。
提案アルゴリズムは,Mai City, Newer College, KITTIベンチマークで得られた複数の量的および知覚的測定値と視覚的結果を用いて,高品質な高密度3Dマッピング性能を実現する。
論文 参考訳(メタデータ) (2024-03-26T09:58:06Z) - AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。
教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。
平均精度は13.3%,F1スコアは9.1%向上した。
論文 参考訳(メタデータ) (2024-03-24T22:53:16Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。