論文の概要: GaussianBeV: 3D Gaussian Representation meets Perception Models for BeV Segmentation
- arxiv url: http://arxiv.org/abs/2407.14108v1
- Date: Fri, 19 Jul 2024 08:24:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 18:23:52.950464
- Title: GaussianBeV: 3D Gaussian Representation meets Perception Models for BeV Segmentation
- Title(参考訳): GaussianBeV:3D Gaussian Representation meets Perception Models for BeV Segmentation
- Authors: Florian Chabot, Nicolas Granger, Guillaume Lapouge,
- Abstract要約: Bird's-eye View (BeV)表現は多視点カメラ画像からの3D知覚に広く用いられている。
本研究では,3次元空間上に配置・配向された3次元ガウスの集合を用いて,映像特徴をBeVに変換する手法を提案する。
実験の結果、提案した表現は極めて効果的であり、nuScenesデータセット上のBeVセマンティックセグメンテーションタスクにおいて、GaussianBeVを新たな最先端技術として位置づけている。
- 参考スコア(独自算出の注目度): 0.40964539027092917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bird's-eye View (BeV) representation is widely used for 3D perception from multi-view camera images. It allows to merge features from different cameras into a common space, providing a unified representation of the 3D scene. The key component is the view transformer, which transforms image views into the BeV. However, actual view transformer methods based on geometry or cross-attention do not provide a sufficiently detailed representation of the scene, as they use a sub-sampling of the 3D space that is non-optimal for modeling the fine structures of the environment. In this paper, we propose GaussianBeV, a novel method for transforming image features to BeV by finely representing the scene using a set of 3D gaussians located and oriented in 3D space. This representation is then splattered to produce the BeV feature map by adapting recent advances in 3D representation rendering based on gaussian splatting. GaussianBeV is the first approach to use this 3D gaussian modeling and 3D scene rendering process online, i.e. without optimizing it on a specific scene and directly integrated into a single stage model for BeV scene understanding. Experiments show that the proposed representation is highly effective and place GaussianBeV as the new state-of-the-art on the BeV semantic segmentation task on the nuScenes dataset.
- Abstract(参考訳): Bird's-eye View (BeV)表現は、多視点カメラ画像からの3次元知覚に広く用いられている。
異なるカメラの機能を共通空間にマージし、3Dシーンを統一的に表現することができる。
キーとなるコンポーネントはビュー変換器で、画像ビューをBeVに変換する。
しかし、3次元空間のサブサンプリングが環境の微細構造をモデル化するのに最適でないため、幾何学的あるいは横断的意図に基づく実際のビュートランスフォーマー手法はシーンの十分な詳細な表現を提供していない。
本稿では,画像特徴をBeVに変換する新しい手法であるGaussianBeVを提案する。
この表現は、ガウススプラッティングに基づく3次元表現レンダリングの最近の進歩に適応して、BeV特徴写像を生成するためにスプラッタ化される。
GaussianBeVは、この3Dガウスモデリングと3Dシーンレンダリングプロセスをオンラインで利用する最初のアプローチである。
実験の結果、提案した表現は極めて効果的であり、nuScenesデータセット上のBeVセマンティックセグメンテーションタスクにおいて、GaussianBeVを新たな最先端技術として位置づけている。
関連論文リスト
- Splatter a Video: Video Gaussian Representation for Versatile Processing [48.9887736125712]
ビデオ表現は、トラッキング、深度予測、セグメンテーション、ビュー合成、編集など、さまざまなダウンストリームタスクに不可欠である。
我々は,映像を3Dガウスに埋め込む,新しい3D表現-ビデオガウス表現を導入する。
トラッキング、一貫したビデオ深度と特徴の洗練、動きと外観の編集、立体映像生成など、多数のビデオ処理タスクで有効であることが証明されている。
論文 参考訳(メタデータ) (2024-06-19T22:20:03Z) - LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field [13.815932949774858]
シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせた視覚メディアの一種である。
本稿では,3次元ガウスモデルを用いて,2次元画像空間から3次元空間への撮影画像の高次化を提案する。
実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。
論文 参考訳(メタデータ) (2024-04-13T11:07:53Z) - Bridging 3D Gaussian and Mesh for Freeview Video Rendering [57.21847030980905]
GauMeshはダイナミックシーンのモデリングとレンダリングのために3D GaussianとMeshをブリッジする。
提案手法は, 動的シーンの異なる部分を表現するために, プリミティブの適切なタイプに適応することを示す。
論文 参考訳(メタデータ) (2024-03-18T04:01:26Z) - Compact 3D Scene Representation via Self-Organizing Gaussian Grids [10.816451552362823]
3D Gaussian Splattingは、静的な3Dシーンをモデリングするための非常に有望なテクニックとして最近登場した。
本稿では3DGSのパラメータを局所的均一性を持つ2次元グリッドに整理したコンパクトなシーン表現を提案する。
本手法は,訓練時間の増加を伴わない複雑なシーンに対して,17倍から42倍の縮小係数を実現する。
論文 参考訳(メタデータ) (2023-12-19T20:18:29Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。
暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文 参考訳(メタデータ) (2023-12-01T17:09:31Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - FrustumFormer: Adaptive Instance-aware Resampling for Multi-view 3D
Detection [47.6570523164125]
我々はFrustumFormerという新しいフレームワークを提案し、適応型インスタンス認識再サンプリングを通じてインスタンス領域の機能により多くの注意を払っている。
nuScenesデータセットの実験は、FrustumFormerの有効性を示し、ベンチマークで新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-10T17:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。