論文の概要: LOMA: Language-assisted Semantic Occupancy Network via Triplane Mamba
- arxiv url: http://arxiv.org/abs/2412.08388v1
- Date: Wed, 11 Dec 2024 13:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:18.177243
- Title: LOMA: Language-assisted Semantic Occupancy Network via Triplane Mamba
- Title(参考訳): LOMA:Triplane Mambaによる言語支援セマンティック占領ネットワーク
- Authors: Yubo Cui, Zhiheng Li, Jiaqiang Wang, Zheng Fang,
- Abstract要約: 言語支援型3Dセマンティック占有予測ネットワークLOMAを提案する。
視覚言語モデルを活用することで、このモジュールは暗黙的な幾何学的知識と言語からの明示的な意味情報を提供する。
本アルゴリズムは,幾何的および意味的完備化タスクにおいて,新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 21.300636683882338
- License:
- Abstract: Vision-based 3D occupancy prediction has become a popular research task due to its versatility and affordability. Nowadays, conventional methods usually project the image-based vision features to 3D space and learn the geometric information through the attention mechanism, enabling the 3D semantic occupancy prediction. However, these works usually face two main challenges: 1) Limited geometric information. Due to the lack of geometric information in the image itself, it is challenging to directly predict 3D space information, especially in large-scale outdoor scenes. 2) Local restricted interaction. Due to the quadratic complexity of the attention mechanism, they often use modified local attention to fuse features, resulting in a restricted fusion. To address these problems, in this paper, we propose a language-assisted 3D semantic occupancy prediction network, named LOMA. In the proposed vision-language framework, we first introduce a VL-aware Scene Generator (VSG) module to generate the 3D language feature of the scene. By leveraging the vision-language model, this module provides implicit geometric knowledge and explicit semantic information from the language. Furthermore, we present a Tri-plane Fusion Mamba (TFM) block to efficiently fuse the 3D language feature and 3D vision feature. The proposed module not only fuses the two features with global modeling but also avoids too much computation costs. Experiments on the SemanticKITTI and SSCBench-KITTI360 datasets show that our algorithm achieves new state-of-the-art performances in both geometric and semantic completion tasks. Our code will be open soon.
- Abstract(参考訳): 視覚に基づく3D占有率予測は、その汎用性と手頃さから、一般的な研究課題となっている。
現在、従来の手法では、画像に基づく視覚特徴を3次元空間に投影し、アテンション機構を通じて幾何学的情報を学習し、3次元のセマンティック占有率の予測を可能にしている。
しかしながら、これらの作業は通常、2つの大きな課題に直面します。
1) 限られた幾何学的情報。
画像自体に幾何学的情報がないため、特に大規模な屋外シーンにおいて、直接3次元空間情報を予測することは困難である。
2)局所的な制限された相互作用。
注意機構の二次的な複雑さのため、彼らはしばしば修正された局所的な注意をヒューズの特徴に利用し、結果として限定的な融合をもたらす。
本稿では,言語支援型3Dセマンティック占有予測ネットワークLOMAを提案する。
提案するビジョン言語フレームワークでは,まずVL対応のシーンジェネレータ(VSG)モジュールを導入し,シーンの3D言語機能を生成する。
視覚言語モデルを活用することで、このモジュールは暗黙的な幾何学的知識と言語からの明示的な意味情報を提供する。
さらに,3次元言語特徴と3次元視覚特徴を効率的に融合させるために,三面体融合マンバ(TFM)ブロックを提案する。
提案するモジュールは,2つの特徴をグローバルモデリングと融合させるだけでなく,計算コストの過大さを回避する。
SemanticKITTI と SSCBench-KITTI360 データセットを用いた実験により,我々のアルゴリズムは幾何的および意味的完備化タスクにおいて,新しい最先端性能を実現することを示す。
私たちのコードはまもなくオープンします。
関連論文リスト
- LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding [42.750252190275546]
LangSurfは3D言語フィールドとオブジェクトの表面を整列する言語組み込みのSurface Fieldである。
提案手法は,オブジェクトを3次元空間に分割することで,インスタンス認識,削除,編集におけるアプローチの有効性を高めることができる。
論文 参考訳(メタデータ) (2024-12-23T15:12:20Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - RefMask3D: Language-Guided Transformer for 3D Referring Segmentation [32.11635464720755]
RefMask3Dは、総合的なマルチモーダル機能インタラクションと理解を探求することを目的としている。
RefMask3Dは、挑戦的なScanReferデータセットにおいて、3.16% mIoUの大きなマージンで、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-25T17:58:03Z) - Grounded 3D-LLM with Referent Tokens [58.890058568493096]
そこで我々は,Grounded 3D-LLMを提案する。
このモデルは、3Dシーンを参照するために特別な名詞句としてシーン参照トークンを使用する。
タスクごとの指示追従テンプレートは、3D視覚タスクを言語形式に翻訳する際の自然と多様性を保証するために使用される。
論文 参考訳(メタデータ) (2024-05-16T18:03:41Z) - POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。