論文の概要: Gaga: Group Any Gaussians via 3D-aware Memory Bank
- arxiv url: http://arxiv.org/abs/2404.07977v1
- Date: Thu, 11 Apr 2024 17:57:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 12:49:46.960656
- Title: Gaga: Group Any Gaussians via 3D-aware Memory Bank
- Title(参考訳): ガガ:3D対応のメモリバンクでガウシアンをグループ化
- Authors: Weijie Lyu, Xueting Li, Abhijit Kundu, Yi-Hsuan Tsai, Ming-Hsuan Yang,
- Abstract要約: Gagaは、ゼロショットセグメンテーションモデルによって予測される一貫性のない2Dマスクを活用することで、オープンワールドの3Dシーンを再構築し、セグメント化する。
トレーニング画像の連続的なビュー変化の仮定を排除することで、Gagaはカメラポーズの変動に対して堅牢性を示す。
Gagaは最先端の手法に対して好意的に機能し、現実世界の応用の可能性を強調している。
- 参考スコア(独自算出の注目度): 66.54280093684427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Gaga, a framework that reconstructs and segments open-world 3D scenes by leveraging inconsistent 2D masks predicted by zero-shot segmentation models. Contrasted to prior 3D scene segmentation approaches that heavily rely on video object tracking, Gaga utilizes spatial information and effectively associates object masks across diverse camera poses. By eliminating the assumption of continuous view changes in training images, Gaga demonstrates robustness to variations in camera poses, particularly beneficial for sparsely sampled images, ensuring precise mask label consistency. Furthermore, Gaga accommodates 2D segmentation masks from diverse sources and demonstrates robust performance with different open-world zero-shot segmentation models, enhancing its versatility. Extensive qualitative and quantitative evaluations demonstrate that Gaga performs favorably against state-of-the-art methods, emphasizing its potential for real-world applications such as scene understanding and manipulation.
- Abstract(参考訳): ゼロショットセグメンテーションモデルにより予測される一貫性のない2次元マスクを活用することで、オープンワールドの3Dシーンを再構成し、セグメント化するフレームワークであるGagaを紹介する。
ビデオオブジェクト追跡に大きく依存する以前の3Dシーンセグメンテーションアプローチとは対照的に、Gagaは空間情報を活用し、多様なカメラポーズでオブジェクトマスクを効果的に関連付ける。
トレーニング画像の連続的なビュー変化の仮定を排除することで、Gagaはカメラポーズの変動に対して堅牢性を示す。
さらに、Gagaは様々なソースからの2Dセグメンテーションマスクに対応し、異なるオープンワールドゼロショットセグメンテーションモデルで堅牢なパフォーマンスを示し、その汎用性を高めている。
広汎な質的、定量的評価により、ガガは最先端の手法に対して好意的に行動し、シーン理解や操作といった現実世界の応用の可能性を強調している。
関連論文リスト
- One Noise to Rule Them All: Multi-View Adversarial Attacks with Universal Perturbation [1.4680035572775534]
本稿では,3次元物体認識における頑健な多視点対角的例を生成するために,新しい普遍摂動法を提案する。
単一のビューに制限された従来の攻撃とは異なり、我々のアプローチは複数の2Dイメージで動作し、実用的でスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-04-02T20:29:59Z) - Aerial Lifting: Neural Urban Semantic and Building Instance Lifting from Aerial Imagery [51.73680703579997]
航空画像から都市規模のセマンティックスとビルレベルのインスタンスセグメンテーションのためのニューラルラジアンスフィールド法を提案する。
都市空撮画像の物体は、建物、車、道路など、相当な大きさのバリエーションを示している。
我々は,様々な大きさのオブジェクトのセグメンテーションを強化する,スケール適応型セマンティックラベル融合戦略を導入する。
次に、2次元のインスタンスラベルにおける多視点不整合問題を緩和するために、新しいクロスビューインスタンスラベルグループ化戦略を導入する。
論文 参考訳(メタデータ) (2024-03-18T14:15:39Z) - Segment Anything in 3D Gaussians [69.68566640585671]
ニューラルレイディアンス場(NeRF)の代替3次元表現として3次元ガウス散乱が出現した
3Dガウス表現は未解析であるため、まずこの領域内でオブジェクトセグメンテーションを実行する必要がある。
本研究では,3次元ガウス空間における物体分割を,学習過程や学習パラメータを使わずに,対話的な手順で実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with
Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。
本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。
マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文 参考訳(メタデータ) (2022-12-20T01:53:40Z) - Video2StyleGAN: Encoding Video in Latent Space for Manipulation [63.03250800510085]
本稿では,顔映像のセマンティックな操作のために,顔映像をStyleGANの潜在空間に符号化する新しいネットワークを提案する。
提案手法は,リアルタイム(66fps)の高速化を実現しつつ,既存の単一画像手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2022-06-27T06:48:15Z) - 3D GAN Inversion for Controllable Portrait Image Animation [45.55581298551192]
我々は新たに開発された3D GANを活用し、マルチビュー一貫性のある画像対象のポーズを明示的に制御できる。
ポートレート・イメージ・アニメーションの手法は、画像の品質、アイデンティティの保存、ポーズ・トランスファーの点で、従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-25T04:06:06Z) - 3D Instance Segmentation of MVS Buildings [5.2517244720510305]
本稿では,多視点ステレオ(MVS)都市シーンから3次元建物をセグメント化するための新しい枠組みを提案する。
この研究の重点は、大型で不正確な3D表面モデルに取り付けられたとしても、3Dビルディングインスタンスを検出し、セグメンテーションすることにある。
論文 参考訳(メタデータ) (2021-12-18T11:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。