論文の概要: Memory-based Adapters for Online 3D Scene Perception
- arxiv url: http://arxiv.org/abs/2403.06974v1
- Date: Mon, 11 Mar 2024 17:57:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:47:51.765764
- Title: Memory-based Adapters for Online 3D Scene Perception
- Title(参考訳): オンライン3dシーン知覚のためのメモリベースアダプタ
- Authors: Xiuwei Xu and Chong Xia and Ziwei Wang and Linqing Zhao and Yueqi Duan
and Jie Zhou and Jiwen Lu
- Abstract要約: 従来の3Dシーン認識手法はオフラインである。
本稿では,3次元シーン認識モデルのバックボーンのためのアダプタベースのプラグアンドプレイモジュールを提案する。
私たちのアダプタは、さまざまなタスクのメインストリームのオフラインアーキテクチャに簡単に挿入でき、オンラインタスクのパフォーマンスを大幅に向上できます。
- 参考スコア(独自算出の注目度): 71.71645534899905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new framework for online 3D scene perception.
Conventional 3D scene perception methods are offline, i.e., take an already
reconstructed 3D scene geometry as input, which is not applicable in robotic
applications where the input data is streaming RGB-D videos rather than a
complete 3D scene reconstructed from pre-collected RGB-D videos. To deal with
online 3D scene perception tasks where data collection and perception should be
performed simultaneously, the model should be able to process 3D scenes frame
by frame and make use of the temporal information. To this end, we propose an
adapter-based plug-and-play module for the backbone of 3D scene perception
model, which constructs memory to cache and aggregate the extracted RGB-D
features to empower offline models with temporal learning ability.
Specifically, we propose a queued memory mechanism to cache the supporting
point cloud and image features. Then we devise aggregation modules which
directly perform on the memory and pass temporal information to current frame.
We further propose 3D-to-2D adapter to enhance image features with strong
global context. Our adapters can be easily inserted into mainstream offline
architectures of different tasks and significantly boost their performance on
online tasks. Extensive experiments on ScanNet and SceneNN datasets demonstrate
our approach achieves leading performance on three 3D scene perception tasks
compared with state-of-the-art online methods by simply finetuning existing
offline models, without any model and task-specific designs.
\href{https://xuxw98.github.io/Online3D/}{Project page}.
- Abstract(参考訳): 本稿では,オンライン3次元シーン知覚のための新しいフレームワークを提案する。
従来の3dシーン知覚手法は、既に再構成済みの3dシーン幾何を入力としてオフラインである。これは、予め収集されたrgb-dビデオから再構成された完全な3dシーンではなく、入力データがrgb-dビデオをストリーミングしているロボットアプリケーションでは適用できない。
データ収集と知覚を同時に行うオンライン3Dシーン認識タスクに対処するために、モデルはフレーム単位で3Dシーンを処理し、時間情報を利用する必要がある。
そこで,我々は,抽出したrgb-d機能をキャッシュして集約するメモリを構築する3dシーン知覚モデルのバックボーンのためのアダプタベースのプラグ・アンド・プレイモジュールを提案する。
具体的には,サポートポイントクラウドと画像特徴をキャッシュする待ち行列メモリ機構を提案する。
次に,メモリ上で直接実行されるアグリゲーションモジュールを考案し,時間情報を現在のフレームに渡す。
さらに,強力なグローバルコンテキストで画像特徴を向上する3D-to-2Dアダプタを提案する。
私たちのアダプタは、さまざまなタスクのメインストリームのオフラインアーキテクチャに簡単に挿入することができます。
scannetとscenennデータセットに関する広範囲な実験により,既存のオフラインモデルをモデルやタスク固有の設計なしで微調整することによって,3つの3次元シーン知覚タスクにおいて,最先端のオンライン手法と比較して,先行的なパフォーマンスを実現することができた。
https://xuxw98.github.io/Online3D/}{Project page}
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - ODIN: A Single Model for 2D and 3D Segmentation [34.612953668151036]
ODINは、2D RGBイメージと3Dポイントクラウドのセグメンテーションとラベル付けを行うモデルである。
ScanNet200、Matterport3D、AI2THOR 3Dセグメンテーションベンチマーク上での最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-04T18:59:25Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Prompt-guided Scene Generation for 3D Zero-Shot Learning [8.658191774247944]
本稿では,ネットワークをよりよく学習するための3Dデータを増やすために,プロンプト誘導型3Dシーン生成と監視手法を提案する。
まず、2つの3Dモデルの点雲を、プロンプトによって記述された特定の方法でマージする。
我々は、合成(ModelNet40, ModelNet10)および実走査(ScanOjbectNN)3Dオブジェクトデータセット上で、最先端のZSLと一般化されたZSL性能を実現した。
論文 参考訳(メタデータ) (2022-09-29T11:24:33Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。