Fugu-MT 論文翻訳(概要): Gaga: Group Any Gaussians via 3D-aware Memory Bank

論文の概要: Gaga: Group Any Gaussians via 3D-aware Memory Bank

arxiv url: http://arxiv.org/abs/2404.07977v1
Date: Thu, 11 Apr 2024 17:57:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 12:49:46.960656
Title: Gaga: Group Any Gaussians via 3D-aware Memory Bank
Title（参考訳）: ガガ:3D対応のメモリバンクでガウシアンをグループ化
Authors: Weijie Lyu, Xueting Li, Abhijit Kundu, Yi-Hsuan Tsai, Ming-Hsuan Yang,
Abstract要約: Gagaは、ゼロショットセグメンテーションモデルによって予測される一貫性のない2Dマスクを活用することで、オープンワールドの3Dシーンを再構築し、セグメント化する。トレーニング画像の連続的なビュー変化の仮定を排除することで、Gagaはカメラポーズの変動に対して堅牢性を示す。 Gagaは最先端の手法に対して好意的に機能し、現実世界の応用の可能性を強調している。
参考スコア（独自算出の注目度）: 66.54280093684427
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Gaga, a framework that reconstructs and segments open-world 3D scenes by leveraging inconsistent 2D masks predicted by zero-shot segmentation models. Contrasted to prior 3D scene segmentation approaches that heavily rely on video object tracking, Gaga utilizes spatial information and effectively associates object masks across diverse camera poses. By eliminating the assumption of continuous view changes in training images, Gaga demonstrates robustness to variations in camera poses, particularly beneficial for sparsely sampled images, ensuring precise mask label consistency. Furthermore, Gaga accommodates 2D segmentation masks from diverse sources and demonstrates robust performance with different open-world zero-shot segmentation models, enhancing its versatility. Extensive qualitative and quantitative evaluations demonstrate that Gaga performs favorably against state-of-the-art methods, emphasizing its potential for real-world applications such as scene understanding and manipulation.
Abstract（参考訳）: ゼロショットセグメンテーションモデルにより予測される一貫性のない2次元マスクを活用することで、オープンワールドの3Dシーンを再構成し、セグメント化するフレームワークであるGagaを紹介する。ビデオオブジェクト追跡に大きく依存する以前の3Dシーンセグメンテーションアプローチとは対照的に、Gagaは空間情報を活用し、多様なカメラポーズでオブジェクトマスクを効果的に関連付ける。トレーニング画像の連続的なビュー変化の仮定を排除することで、Gagaはカメラポーズの変動に対して堅牢性を示す。さらに、Gagaは様々なソースからの2Dセグメンテーションマスクに対応し、異なるオープンワールドゼロショットセグメンテーションモデルで堅牢なパフォーマンスを示し、その汎用性を高めている。広汎な質的、定量的評価により、ガガは最先端の手法に対して好意的に行動し、シーン理解や操作といった現実世界の応用の可能性を強調している。

関連論文リスト

Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning [63.94919846010485]
3DGI)は、複数の入力ビューから補完的な視覚的・意味的手がかりを効果的に活用することが困難である。本稿では,異なる入力ビュー間での3Dポイントの視認性不確実性を計測し,それらを用いて3DGIを誘導する手法を提案する。 ViSibility-uncerTainty-guided 3DGIとシーンコンセプトAl学習を統合し,新しい3DGIフレームワークであるVISTAを構築した。
論文参考訳（メタデータ） (2025-04-23T06:21:11Z)
NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文参考訳（メタデータ） (2025-04-20T14:39:27Z)
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文参考訳（メタデータ） (2025-03-23T16:40:20Z)
WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images [16.107027445270887]
多様な環境にまたがる任意の3Dオブジェクトのセグメンテーションを可能にする効率的なアプローチであるWildSeg3Dを紹介する。このフィードフォワードアプローチの重要な課題は、複数の2次元ビューにまたがる3Dアライメントエラーの蓄積である。また,リアルタイム対話型セグメンテーションのための動的グローバルアライニング(DGA)とマルチビューグループマッピング(MGM)を提案する。
論文参考訳（メタデータ） (2025-03-11T13:10:41Z)
NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文参考訳（メタデータ） (2024-11-25T07:57:17Z)
LUDVIG: Learning-free Uplifting of 2D Visual features to Gaussian Splatting scenes [39.687526103092445]
単純で効果的な集約手法が優れた結果をもたらすことを示す。本手法を汎用DINOv2機能に拡張し,グラフ拡散による3次元シーン形状を統合し,競合セグメンテーションの結果を得る。
論文参考訳（メタデータ） (2024-10-18T13:44:29Z)
OMEGAS: Object Mesh Extraction from Large Scenes Guided by Gaussian Segmentation [15.833273340802311]
大きな場面から特定の物体を正確に再構築することは困難である。現在のシーン再構築技術は、しばしばオブジェクトの詳細テクスチャが失われる。本稿では,ガウシアンがガイドした大規模シーンからオブジェクト抽出を行う OMEGAS というフレームワークを提案する。本研究では,大規模シーンから,定量的かつ定性的に,特定のターゲットを正確に再構築できることを実証する。
論文参考訳（メタデータ） (2024-04-24T14:29:26Z)
One Noise to Rule Them All: Multi-View Adversarial Attacks with Universal Perturbation [1.4680035572775534]
本稿では,3次元物体認識における頑健な多視点対角的例を生成するために,新しい普遍摂動法を提案する。単一のビューに制限された従来の攻撃とは異なり、我々のアプローチは複数の2Dイメージで動作し、実用的でスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2024-04-02T20:29:59Z)
Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文参考訳（メタデータ） (2024-03-21T17:59:59Z)
Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。 SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文参考訳（メタデータ） (2024-02-29T13:26:47Z)
Gaussian Grouping: Segment and Edit Anything in 3D Scenes [65.49196142146292]
ガウシアン・グルーピング(ガウシアン・グルーピング)はガウシアン・スプラッティングを拡張して,オープンワールドの3Dシーンで何かを共同で再構築・分割する。暗黙のNeRF表現と比較すると,グループ化された3次元ガウシアンは,高画質,微粒度,高効率で,あらゆるものを3次元で再構成,分割,編集することができる。
論文参考訳（メタデータ） (2023-12-01T17:09:31Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled Consistency [120.9499803967496]
本稿では,地域統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築法を提案する。本手法は, 地域形状のモデル化に集中し, マスク復元のあいまいさを軽減できる。マスク付き領域における情報保存型再構築と未加工領域からの連続自己蒸留を組み合わせることにより,MM-3DSceneと呼ばれる統合フレームワークが提供される。
論文参考訳（メタデータ） (2022-12-20T01:53:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。