論文の概要: Leverage Cross-Attention for End-to-End Open-Vocabulary Panoptic Reconstruction
- arxiv url: http://arxiv.org/abs/2501.01119v1
- Date: Thu, 02 Jan 2025 07:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:32.855305
- Title: Leverage Cross-Attention for End-to-End Open-Vocabulary Panoptic Reconstruction
- Title(参考訳): エンド・ツー・エンド・エンド・オープン・ボキャブラリ・パノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノ
- Authors: Xuan Yu, Yuxuan Xie, Yili Liu, Haojian Lu, Rong Xiong, Yiyi Liao, Yue Wang,
- Abstract要約: PanopticRecon++は、新しい横断的視点を通じて、パノプティクスの再構築を定式化するエンドツーエンドのメソッドである。
このパースペクティブは、(クエリとして)3Dインスタンスとシーンの(キーとして)3D埋め込みフィールドの関係を、アテンションマップを通じてモデル化する。
PanopticRecon++は、シミュレーションと実世界のデータセットの両方で、3Dと2Dのセグメンテーションと再構成のパフォーマンスで競合するパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 24.82894136068243
- License:
- Abstract: Open-vocabulary panoptic reconstruction offers comprehensive scene understanding, enabling advances in embodied robotics and photorealistic simulation. In this paper, we propose PanopticRecon++, an end-to-end method that formulates panoptic reconstruction through a novel cross-attention perspective. This perspective models the relationship between 3D instances (as queries) and the scene's 3D embedding field (as keys) through their attention map. Unlike existing methods that separate the optimization of queries and keys or overlook spatial proximity, PanopticRecon++ introduces learnable 3D Gaussians as instance queries. This formulation injects 3D spatial priors to preserve proximity while maintaining end-to-end optimizability. Moreover, this query formulation facilitates the alignment of 2D open-vocabulary instance IDs across frames by leveraging optimal linear assignment with instance masks rendered from the queries. Additionally, we ensure semantic-instance segmentation consistency by fusing query-based instance segmentation probabilities with semantic probabilities in a novel panoptic head supervised by a panoptic loss. During training, the number of instance query tokens dynamically adapts to match the number of objects. PanopticRecon++ shows competitive performance in terms of 3D and 2D segmentation and reconstruction performance on both simulation and real-world datasets, and demonstrates a user case as a robot simulator. Our project website is at: https://yuxuan1206.github.io/panopticrecon_pp/
- Abstract(参考訳): オープン・ボキャブラリ・パノプティック・コンストラクション(英語版)は、包括的シーン理解を提供し、エンボディロボット工学とフォトリアリスティック・シミュレーションの進歩を可能にする。
本稿では,新しい横断的視点によるパノプティカル再構築を定式化するPanopticRecon++を提案する。
このパースペクティブは、(クエリとして)3Dインスタンスとシーンの(キーとして)3D埋め込みフィールドの関係を、アテンションマップを通じてモデル化する。
クエリとキーの最適化を分離する既存の方法と異なり、PanopticRecon++は学習可能な3Dガウスをインスタンスクエリとして導入している。
この定式化は、3次元空間先行を注入し、エンドツーエンドの最適化性を維持しながら近接性を維持する。
さらに、このクエリの定式化は、クエリから描画されたインスタンスマスクに最適な線形割り当てを活用することにより、フレーム間の2Dオープン語彙インスタンスIDのアライメントを容易にする。
さらに,パン光学的損失によって制御される新規なパノプティクスヘッドにおいて,クエリベースのインスタンスセグメンテーション確率とセグティクス確率とを融合させることにより,セグティクス・インスタンスセグメンテーションの整合性を確保する。
トレーニング中、インスタンスクエリトークンの数は、オブジェクトの数に合わせて動的に適応する。
PanopticRecon++はシミュレーションと実世界のデータセットの両方で3Dと2Dのセグメンテーションと再構成のパフォーマンスの競争性能を示し、ロボットシミュレータとしてのユーザケースを示す。
プロジェクトのWebサイトは以下の通り。
関連論文リスト
- Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - PanopticRecon: Leverage Open-vocabulary Instance Segmentation for Zero-shot Panoptic Reconstruction [23.798691661418253]
シーンのRGB-D画像から新たなゼロショットパノビュート再構成手法を提案する。
我々は、高密度な一般化特徴の助けを借りて部分ラベルを伝播させることにより、両方の課題に取り組む。
本手法は,屋内データセットScanNet V2と屋外データセットKITTI-360の最先端手法より優れている。
論文 参考訳(メタデータ) (2024-07-01T15:06:04Z) - PanoSSC: Exploring Monocular Panoptic 3D Scene Reconstruction for Autonomous Driving [15.441175735210791]
視覚中心の占有ネットワークは、セマンティクスを持った均一なボクセルで周囲の環境を表現する。
現代の占有ネットワークは主に、ボクセルのセマンティックな予測によって、物体表面から見えるボクセルを再構築することに焦点を当てている。
論文 参考訳(メタデータ) (2024-06-11T07:51:26Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Panoptic Lifting for 3D Scene Understanding with Neural Fields [32.59498558663363]
そこで本研究では,撮影シーンの画像からパノプティカル3D表現を学習するための新しい手法を提案する。
本手法では,事前学習ネットワークから推定される2次元空間分割マスクのみを必要とする。
実験結果は、Hypersim、Replica、ScanNetデータセットに挑戦するアプローチを検証する。
論文 参考訳(メタデータ) (2022-12-19T19:15:36Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z) - Object-Centric Multi-View Aggregation [86.94544275235454]
本稿では,オブジェクトのスパースなビュー集合を集約して,半単純3次元表現を容積特徴格子の形で計算する手法を提案する。
我々のアプローチの鍵となるのは、カメラのポーズを明示することなく、ビューを持ち上げることができるオブジェクト中心の標準3D座標システムである。
画素から標準座標系への対称対応マッピングの計算により、未知の領域への情報伝達がより良くなることを示す。
論文 参考訳(メタデータ) (2020-07-20T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。