Fugu-MT 論文翻訳(概要): Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs

論文の概要: Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs

arxiv url: http://arxiv.org/abs/2407.10743v1
Date: Mon, 15 Jul 2024 14:16:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 15:01:44.760237
Title: Scaling 3D Reasoning with LMMs to Large Robot Mission Environments Using Datagraphs
Title（参考訳）: データグラフを用いたLMMによる3次元推論の大規模ロボットミッション環境への応用
Authors: W. J. Meijer, A. C. Kemmeren, E. H. J. Riemens, J. E. Fransman, M. van Bekkum, G. J. Burghouts, J. D. van Mil,
Abstract要約: 本稿では,LMM(Large Multimodal Models)を拡張性のある3D環境に拡張するという課題に対処する。我々は,LMMが大規模環境の小さな部分を反復的に問合せすることのできる,データグラフ構造を利用した新しい手法を提案する。本稿では,このデータグラフを2つの3次元シーン言語ユースケースに活用する可能性を,探索・救助ミッションの例で示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper addresses the challenge of scaling Large Multimodal Models (LMMs) to expansive 3D environments. Solving this open problem is especially relevant for robot deployment in many first-responder scenarios, such as search-and-rescue missions that cover vast spaces. The use of LMMs in these settings is currently hampered by the strict context windows that limit the LMM's input size. We therefore introduce a novel approach that utilizes a datagraph structure, which allows the LMM to iteratively query smaller sections of a large environment. Using the datagraph in conjunction with graph traversal algorithms, we can prioritize the most relevant locations to the query, thereby improving the scalability of 3D scene language tasks. We illustrate the datagraph using 3D scenes, but these can be easily substituted by other dense modalities that represent the environment, such as pointclouds or Gaussian splats. We demonstrate the potential to use the datagraph for two 3D scene language task use cases, in a search-and-rescue mission example.
Abstract（参考訳）: 本稿では,LMM(Large Multimodal Models)を拡張性のある3D環境に拡張するという課題に対処する。このオープンな問題を解決することは、広い空間をカバーする捜索救助任務など、多くの第一対応シナリオにおけるロボットの展開に特に関係している。これらの設定でのLMMの使用は、LMMの入力サイズを制限する厳密なコンテキストウィンドウによって妨げられている。そこで我々は,LMMが大規模環境の小さな部分を反復的に問合せすることのできる,データグラフ構造を利用した新しい手法を提案する。データグラフをグラフトラバースアルゴリズムと組み合わせることで、クエリに最も関連性の高い場所を優先順位付けし、3Dシーン言語タスクのスケーラビリティを向上させることができる。データグラフを3次元のシーンで記述するが、これはポイントクラウドやガウススプラットなど、環境を表す高密度なモダリティによって容易に置き換えることができる。本稿では,このデータグラフを2つの3次元シーン言語タスクユースケースに活用する可能性を,探索・救助ミッションの例で示す。

関連論文リスト

SLAG: Scalable Language-Augmented Gaussian Splatting [19.643023058839603]
言語拡張されたシーン表現は、検索・救助、スマートシティ、鉱業といった大規模ロボット工学の応用に大きな期待を抱いている。これらのシナリオの多くは時間に敏感で、高速なシーンエンコーディングを必要とする一方で、データ集約型でスケーラブルなソリューションを必要とする。言語拡張されたガウススプラッティングのためのマルチGPUフレームワークであるSLAGを導入し、大きなシーンの埋め込みのスピードとスケーラビリティを向上させる。
論文参考訳（メタデータ） (2025-05-12T23:32:24Z)
Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文参考訳（メタデータ） (2025-03-29T09:34:16Z)
FunGraph: Functionality Aware 3D Scene Graphs for Language-Prompted Scene Interaction [1.8124328823188356]
我々は、より細かな解像度でオブジェクトを検出し、保存することに集中し、価格関連部品に焦点をあてる。現在利用可能な3Dリソースを活用して、2Dデータを生成し、検出器をトレーニングし、標準の3Dシーングラフ生成パイプラインを拡張するために使用します。
論文参考訳（メタデータ） (2025-03-10T23:13:35Z)
Mosaic3D: Foundation Dataset and Model for Open-Vocabulary 3D Segmentation [92.17176311351469]
我々は、新しいデータ生成パイプラインとトレーニングフレームワークを導入することで、オープンな3Dシーン理解に取り組む。本手法は, 正確な3次元領域分割, 包括的テキスト記述, 十分なデータセットスケールの3つの重要な要件に対処する。このパイプラインを複数の3Dシーンデータセットに適用すると、Mosaic3D-5.6Mが生成される。
論文参考訳（メタデータ） (2025-02-04T18:18:50Z)
Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文参考訳（メタデータ） (2024-11-25T10:14:10Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
More Text, Less Point: Towards 3D Data-Efficient Point-Language Understanding [22.753452376062565]
GreenPLMは、最小限の3Dポイントクラウドとテキストデータペアで堅牢な3Dオブジェクト理解を可能にすることを目的としている。画像とテキストのアライメントにCLIPにインスパイアされた我々は、トレーニング済みのクラウドテキストエンコーダを使用して、3Dポイントクラウド空間をテキスト空間にマッピングする。 3Dオブジェクトのフリーテキスト記述を6M生成し、3段階のトレーニング戦略を設計し、LLMが様々なモダリティ間の本質的な接続をよりよく探索できるようにする。
論文参考訳（メタデータ） (2024-08-28T17:38:44Z)
LLMI3D: Empowering LLM with 3D Perception from a Single 2D Image [72.14973729674995]
現在の3D認識手法、特に小さなモデルでは、論理的推論、質問応答、オープンシナリオカテゴリの処理に苦労している。空間的特徴抽出のための空間的局所特徴抽出法,精密な幾何回帰のための3次元問合せ情報復号法,カメラ焦点長変動に対する幾何学投影に基づく3次元推論を提案する。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文参考訳（メタデータ） (2024-06-13T17:59:30Z)
Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文参考訳（メタデータ） (2024-05-27T17:59:41Z)
Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文参考訳（メタデータ） (2024-05-16T18:03:41Z)
DeepMIF: Deep Monotonic Implicit Fields for Large-Scale LiDAR 3D Mapping [46.80755234561584]
最近の学習ベース手法は,3次元シーンの表面を近似するために,ニューラル暗黙表現と最適化可能な特徴グリッドを統合している。この作業では、LiDARデータを正確にフィッティングすることから離れ、代わりにネットワークが3D空間で定義された非メトリックモノトニック暗黙フィールドを最適化する。提案アルゴリズムは,Mai City, Newer College, KITTIベンチマークで得られた複数の量的および知覚的測定値と視覚的結果を用いて,高品質な高密度3Dマッピング性能を実現する。
論文参考訳（メタデータ） (2024-03-26T09:58:06Z)
AutoInst: Automatic Instance-Based Segmentation of LiDAR 3D Scans [41.17467024268349]
3D環境を理解するには、きめ細かい風景を理解する必要がある。教師なしの方法で3次元シーンのインスタンスセグメンテーションを予測することを提案する。平均精度は13.3%,F1スコアは9.1%向上した。
論文参考訳（メタデータ） (2024-03-24T22:53:16Z)
SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文参考訳（メタデータ） (2023-04-28T14:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。