論文の概要: Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs
- arxiv url: http://arxiv.org/abs/2407.10743v1
- Date: Mon, 15 Jul 2024 14:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 15:01:44.760237
- Title: Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs
- Title(参考訳): データグラフを用いたLMMによる3次元推論の大規模ロボットミッション環境への応用
- Authors: W. J. Meijer, A. C. Kemmeren, E. H. J. Riemens, J. E. Fransman, M. van Bekkum, G. J. Burghouts, J. D. van Mil,
- Abstract要約: 本稿では,LMM(Large Multimodal Models)を拡張性のある3D環境に拡張するという課題に対処する。
我々は,LMMが大規模環境の小さな部分を反復的に問合せすることのできる,データグラフ構造を利用した新しい手法を提案する。
本稿では,このデータグラフを2つの3次元シーン言語ユースケースに活用する可能性を,探索・救助ミッションの例で示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of scaling Large Multimodal Models (LMMs) to expansive 3D environments. Solving this open problem is especially relevant for robot deployment in many first-responder scenarios, such as search-and-rescue missions that cover vast spaces. The use of LMMs in these settings is currently hampered by the strict context windows that limit the LMM's input size. We therefore introduce a novel approach that utilizes a datagraph structure, which allows the LMM to iteratively query smaller sections of a large environment. Using the datagraph in conjunction with graph traversal algorithms, we can prioritize the most relevant locations to the query, thereby improving the scalability of 3D scene language tasks. We illustrate the datagraph using 3D scenes, but these can be easily substituted by other dense modalities that represent the environment, such as pointclouds or Gaussian splats. We demonstrate the potential to use the datagraph for two 3D scene language task use cases, in a search-and-rescue mission example.
- Abstract(参考訳): 本稿では,LMM(Large Multimodal Models)を拡張性のある3D環境に拡張するという課題に対処する。
このオープンな問題を解決することは、広い空間をカバーする捜索救助任務など、多くの第一対応シナリオにおけるロボットの展開に特に関係している。
これらの設定でのLMMの使用は、LMMの入力サイズを制限する厳密なコンテキストウィンドウによって妨げられている。
そこで我々は,LMMが大規模環境の小さな部分を反復的に問合せすることのできる,データグラフ構造を利用した新しい手法を提案する。
データグラフをグラフトラバースアルゴリズムと組み合わせることで、クエリに最も関連性の高い場所を優先順位付けし、3Dシーン言語タスクのスケーラビリティを向上させることができる。
データグラフを3次元のシーンで記述するが、これはポイントクラウドやガウススプラットなど、環境を表す高密度なモダリティによって容易に置き換えることができる。
本稿では,このデータグラフを2つの3次元シーン言語タスクユースケースに活用する可能性を,探索・救助ミッションの例で示す。
関連論文リスト
- Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。
本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。
このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文 参考訳(メタデータ) (2025-02-04T18:18:50Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding [22.753452376062565]
GreenPLMは、最小限の3Dポイントクラウドとテキストデータペアで堅牢な3Dオブジェクト理解を可能にすることを目的としている。
画像とテキストのアライメントにCLIPにインスパイアされた我々は、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。
3Dオブジェクトのフリーテキスト記述を6M生成し、3段階のトレーニング戦略を設計し、LLMが様々なモダリティ間の本質的な接続をよりよく探索できるようにする。
論文 参考訳(メタデータ) (2024-08-28T17:38:44Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - DeepMIF: Deep Monotonic Implicit Fields for Large-Scale LiDAR 3D Mapping [46.80755234561584]
最近の学習ベース手法は,3次元シーンの表面を近似するために,ニューラル暗黙表現と最適化可能な特徴グリッドを統合している。
この作業では、LiDARデータを正確にフィッティングすることから離れ、代わりにネットワークが3D空間で定義された非メトリックモノトニック暗黙フィールドを最適化する。
提案アルゴリズムは,Mai City, Newer College, KITTIベンチマークで得られた複数の量的および知覚的測定値と視覚的結果を用いて,高品質な高密度3Dマッピング性能を実現する。
論文 参考訳(メタデータ) (2024-03-26T09:58:06Z) - AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。
教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。
平均精度は13.3%,F1スコアは9.1%向上した。
論文 参考訳(メタデータ) (2024-03-24T22:53:16Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。