Fugu-MT 論文翻訳(概要): Context and Geometry Aware Voxel Transformer for Semantic Scene Completion

論文の概要: Context and Geometry Aware Voxel Transformer for Semantic Scene Completion

arxiv url: http://arxiv.org/abs/2405.13675v3
Date: Fri, 04 Oct 2024 03:36:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.548192
Title: Context and Geometry Aware Voxel Transformer for Semantic Scene Completion
Title（参考訳）: セマンティックシーン補完のためのボクセル変換器のコンテキストと幾何学
Authors: Zhu Yu, Runmin Zhang, Jiacheng Ying, Junchen Yu, Xiaohai Hu, Lun Luo, Si-Yuan Cao, Hui-Liang Shen,
Abstract要約: 視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像間で共有コンテキストに依存しないクエリを使用するのが一般的である。セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。
参考スコア（独自算出の注目度）: 7.147020285382786
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-based Semantic Scene Completion (SSC) has gained much attention due to its widespread applications in various 3D perception tasks. Existing sparse-to-dense approaches typically employ shared context-independent queries across various input images, which fails to capture distinctions among them as the focal regions of different inputs vary and may result in undirected feature aggregation of cross-attention. Additionally, the absence of depth information may lead to points projected onto the image plane sharing the same 2D position or similar sampling points in the feature map, resulting in depth ambiguity. In this paper, we present a novel context and geometry aware voxel transformer. It utilizes a context aware query generator to initialize context-dependent queries tailored to individual input images, effectively capturing their unique characteristics and aggregating information within the region of interest. Furthermore, it extend deformable cross-attention from 2D to 3D pixel space, enabling the differentiation of points with similar image coordinates based on their depth coordinates. Building upon this module, we introduce a neural network named CGFormer to achieve semantic scene completion. Simultaneously, CGFormer leverages multiple 3D representations (i.e., voxel and TPV) to boost the semantic and geometric representation abilities of the transformed 3D volume from both local and global perspectives. Experimental results demonstrate that CGFormer achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks, attaining a mIoU of 16.87 and 20.05, as well as an IoU of 45.99 and 48.07, respectively. Remarkably, CGFormer even outperforms approaches employing temporal images as inputs or much larger image backbone networks.
Abstract（参考訳）: 視覚に基づくセマンティックシーンコンプリート(SSC)は、様々な3次元知覚タスクに広く応用されているため、多くの注目を集めている。既存のスパース・トゥ・デンス・アプローチでは、様々な入力画像に共通するコンテキスト非依存のクエリを用いるのが一般的であり、異なる入力の焦点領域が異なるため、異なる入力の区別が取れず、非指向的な特徴集約が生じる可能性がある。さらに、深度情報の欠如は、特徴マップ内の同じ2D位置または類似のサンプリングポイントを共有する画像平面に投影される点につながり、深さの曖昧さをもたらす可能性がある。本稿では,新しいコンテキストと幾何学を考慮したボクセル変換器を提案する。コンテキスト認識クエリジェネレータを使用して、個々の入力画像に適したコンテキスト依存クエリを初期化し、その特徴を効果的にキャプチャし、関心領域内の情報を集約する。さらに、変形可能なクロスアテンションを2Dから3Dピクセル空間に拡張し、その深さ座標に基づいて類似の画像座標を持つ点の微分を可能にする。このモジュールをベースとして,セマンティックシーン補完を実現するためにCGFormerというニューラルネットワークを導入する。同時に、CGFormerは複数の3D表現(すなわち、ボクセルとTPV)を活用し、局所的および大域的な視点から変換された3Dボリュームの意味的および幾何学的表現能力を高める。実験の結果、CGFormerはSemanticKITTIとSSCBench-KITTI-360のベンチマークで、それぞれ16.87と20.05のmIoU、45.99と48.07のIoUを達成した。注目すべきは、CGFormerは、時間的イメージを入力として、あるいははるかに大きな画像バックボーンネットワークとして利用するアプローチよりも優れています。

関連論文リスト

IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文参考訳（メタデータ） (2025-10-26T14:57:44Z)
SegMASt3R: Geometry Grounded Segment Matching [23.257530861472656]
我々は3次元基礎モデルの空間的理解を活用して,広義のセグメントマッチングに取り組む。本稿では,これら3次元基礎モデルの帰納バイアスを利用して,最大180度の視点変化回転で画像対間のセグメントをマッチングするアーキテクチャを提案する。
論文参考訳（メタデータ） (2025-10-06T17:31:32Z)
Visual Anagrams Reveal Hidden Differences in Holistic Shape Processing Across Vision Models [4.749824105387293]
構成形状スコア(CSS)による絶対構成能力の問題として形状評価を再放送する。 CSSは、完全に自己管理された言語対応のトランスフォーマーによって、幅広い構成上の感度を明らかにしている。本研究は, 形状とテクスチャの人工的な選択を強制することには, 真に堅牢で, 汎用的で, 人間のような視覚システムへの道が欠かせないことを示唆する。
論文参考訳（メタデータ） (2025-07-01T07:08:56Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
Multiview Scene Graph [7.460438046915524]
適切なシーン表現は、空間知性の追求の中心である。未提示画像からマルチビューシーングラフ(MSG)を構築することを提案する。 MSGは、場所とオブジェクトノードを相互接続したシーンをトポロジ的に表現する。
論文参考訳（メタデータ） (2024-10-15T02:04:05Z)
Monocular Visual Place Recognition in LiDAR Maps via Cross-Modal State Space Model and Multi-View Matching [2.400446821380503]
我々はRGB画像とポイントクラウドの両方のディスクリプタを学習するための効率的なフレームワークを導入する。視覚状態空間モデル(VMamba)をバックボーンとして、ピクセルビューとシーンの共同トレーニング戦略を採用している。視覚的な3Dポイントオーバーラップ戦略は、マルチビューの監視のために、ポイントクラウドビューとRGBイメージの類似性を定量化するように設計されている。
論文参考訳（メタデータ） (2024-10-08T18:31:41Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。 2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文参考訳（メタデータ） (2023-06-28T22:36:44Z)
FrustumFormer: Adaptive Instance-aware Resampling for Multi-view 3D Detection [47.6570523164125]
我々はFrustumFormerという新しいフレームワークを提案し、適応型インスタンス認識再サンプリングを通じてインスタンス領域の機能により多くの注意を払っている。 nuScenesデータセットの実験は、FrustumFormerの有効性を示し、ベンチマークで新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-01-10T17:51:55Z)
Multi-Projection Fusion and Refinement Network for Salient Object Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。 MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。 2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-12-23T14:50:40Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
Similarity-Aware Fusion Network for 3D Semantic Segmentation [87.51314162700315]
本研究では,3次元セマンティックセグメンテーションのための2次元画像と3次元点雲を適応的に融合する類似性認識融合ネットワーク(SAFNet)を提案する。我々は、入力とバックプロジェクションされた(2Dピクセルから)点雲の間の幾何学的および文脈的類似性を初めて学習する、後期融合戦略を採用している。 SAFNetは、様々なデータ完全性にまたがって、既存の最先端の核融合ベースのアプローチを著しく上回っている。
論文参考訳（メタデータ） (2021-07-04T09:28:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。