Fugu-MT 論文翻訳(概要): Memorize What Matters: Emergent Scene Decomposition from Multitraverse

論文の概要: Memorize What Matters: Emergent Scene Decomposition from Multitraverse

arxiv url: http://arxiv.org/abs/2405.17187v1
Date: Mon, 27 May 2024 14:11:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 15:13:09.274312
Title: Memorize What Matters: Emergent Scene Decomposition from Multitraverse
Title（参考訳）: 重要なことを記憶する: マルチトラバースからの創発的シーン分解
Authors: Yiming Li, Zehong Wang, Yue Wang, Zhiding Yu, Zan Gojcic, Marco Pavone, Chen Feng, Jose M. Alvarez,
Abstract要約: 3次元ガウス写像は3次元ガウス写像をベースとしたカメラのみのオフラインマッピングフレームワークである。 3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。 We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
参考スコア（独自算出の注目度）: 54.487589469432706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Humans naturally retain memories of permanent elements, while ephemeral moments often slip through the cracks of memory. This selective retention is crucial for robotic perception, localization, and mapping. To endow robots with this capability, we introduce 3D Gaussian Mapping (3DGM), a self-supervised, camera-only offline mapping framework grounded in 3D Gaussian Splatting. 3DGM converts multitraverse RGB videos from the same region into a Gaussian-based environmental map while concurrently performing 2D ephemeral object segmentation. Our key observation is that the environment remains consistent across traversals, while objects frequently change. This allows us to exploit self-supervision from repeated traversals to achieve environment-object decomposition. More specifically, 3DGM formulates multitraverse environmental mapping as a robust differentiable rendering problem, treating pixels of the environment and objects as inliers and outliers, respectively. Using robust feature distillation, feature residuals mining, and robust optimization, 3DGM jointly performs 3D mapping and 2D segmentation without human intervention. We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and neural rendering. Extensive results verify the effectiveness and potential of our method for self-driving and robotics.
Abstract（参考訳）: 人間は自然に永久的な要素の記憶を保持するが、短命の瞬間はしばしば記憶のひび割れを乗り越える。この選択的保持は、ロボット知覚、局所化、マッピングに不可欠である。ロボットにこの能力を付与するために,3次元ガウスマッピング(3DGM)を導入する。 3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。私たちのキーとなる観察は、オブジェクトが頻繁に変化する間、環境は横断的に一貫しているということです。これにより、環境オブジェクトの分解を実現するために、繰り返し発生するトラバーサルからの自己超越を活用できる。より具体的には、3DGMは、堅牢な微分可能なレンダリング問題としてマルチトラバース環境マッピングを定式化し、環境のピクセルとオブジェクトをそれぞれインレーヤとアウトレーヤとして扱う。 3DGMは、3Dマッピングと2Dセグメンテーションを人間の介入なしに共同で行う。 We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。本手法の有効性と可能性を検証した。

関連論文リスト

Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting [64.64738535860351]
単一ビュー画像を包括的・スケール的・外観リアルな3D表現に変換するスケーラブルなパイプラインを提案する。本手法は,画像の膨大な保存と空間的シーン理解への需要の増大とのギャップを埋めるものである。画像から精度の高い3Dデータを自動的に生成することにより,データ収集コストを大幅に削減し,空間知性を向上するための新たな道を開く。
論文参考訳（メタデータ） (2025-07-24T14:53:26Z)
OV-MAP : Open-Vocabulary Zero-Shot 3D Instance Segmentation Map for Robots [18.200635521222267]
OV-MAPは、オブジェクト認識機能を高めるために、オープンな特徴を3Dマップに統合することで、移動ロボットのためのオープンワールド3Dマッピングの新しいアプローチである。我々は2次元マスクを3次元空間に投影するクラス非依存セグメンテーションモデルと、点雲から生の深度と合成の深度をマージして作成した補足深度画像を組み合わせた。このアプローチは、3Dマスク投票機構とともに、3D教師付きセグメンテーションモデルに頼ることなく、正確なゼロショット3Dインスタンスセグメンテーションを可能にする。
論文参考訳（メタデータ） (2025-06-13T08:49:23Z)
PIG: Physically-based Multi-Material Interaction with 3D Gaussians [14.097146027458368]
PIG: 3次元ガウシアンとの物理的に基いた多元的相互作用は、3次元物体のセグメンテーションと高精度に相互作用する物体のシミュレーションを組み合わせた新しいアプローチである。本手法は,映像品質の面では最先端技術(SOTA)よりも優れるだけでなく,物理的に現実的なシーン生成の分野での新たな方向やパイプラインも開放することを示す。
論文参考訳（メタデータ） (2025-06-09T11:25:21Z)
GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文参考訳（メタデータ） (2025-02-07T16:07:51Z)
Volumetric Mapping with Panoptic Refinement via Kernel Density Estimation for Mobile Robots [2.8668675011182967]
移動ロボットは通常、軽量ネットワークを使用してRGB画像上にオブジェクトを分割し、深度マップを介してそれらをローカライズする。非パラメトリックな統計的手法を用いて分割誤差を補修することで3次元シーン再構成における汎視的セグメンテーション品質の問題に対処する。予測マスクを深度フレームにマッピングし,カーネル密度を用いて分布を推定する。奥行き知覚の外れ値は、追加のパラメータを必要とせずに拒否される。
論文参考訳（メタデータ） (2024-12-15T16:46:23Z)
RIGI: Rectifying Image-to-3D Generation Inconsistency via Uncertainty-aware Learning [27.4552892119823]
マルチビュースナップショットの不整合は、しばしばオブジェクト境界に沿ってノイズやアーティファクトを導入し、3D再構成プロセスを損なう。 3次元ガウススプラッティング(3DGS)を3次元再構成に利用し,不確実性認識学習を再現プロセスに統合する。適応的な画素単位の損失重み付けを適用してモデルを正規化し、不確実領域における再構成強度を低減させる。
論文参考訳（メタデータ） (2024-11-28T02:19:28Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
Augmented Efficiency: Reducing Memory Footprint and Accelerating Inference for 3D Semantic Segmentation through Hybrid Vision [9.96433151449016]
本稿では,2次元と3次元のコンピュータビジョン技術を組み合わせた3次元セマンティックセグメンテーションの新たなアプローチを提案する。我々は3次元点雲にリンクしたRGB画像に対して2Dセマンティックセマンティックセマンティックセマンティクスを行い、その結果をクラスラベルの押出手法を用いて3Dに拡張する。このモデルは、KITTI-360データセット上の最先端の3Dセマンティックセマンティックセグメンテーションモデルとして機能する。
論文参考訳（メタデータ） (2024-07-23T00:04:10Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
Multi-initialization Optimization Network for Accurate 3D Human Pose and Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文参考訳（メタデータ） (2021-12-24T02:43:58Z)
DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。 3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文参考訳（メタデータ） (2021-08-31T18:33:55Z)
Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文参考訳（メタデータ） (2021-08-17T13:30:02Z)
Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文参考訳（メタデータ） (2020-12-16T21:39:53Z)
3D Human Mesh Regression with Dense Correspondence [95.92326689172877]
単一の2D画像から人体の3Dメッシュを推定することは、拡張現実や人間とロボットのインタラクションといった多くのアプリケーションにおいて重要なタスクである。前者は畳み込みニューラルネットワーク(CNN)を用いて抽出した大域的画像特徴から3Dメッシュを再構成した。本稿では,メッシュとUV空間の局所像特徴との密接な対応性を明確に確立する,DecoMRというモデルフリーな3次元メッシュ推定フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T08:50:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。