論文の概要: IPFormer: Visual 3D Panoptic Scene Completion with Context-Adaptive Instance Proposals
- arxiv url: http://arxiv.org/abs/2506.20671v1
- Date: Wed, 25 Jun 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.903201
- Title: IPFormer: Visual 3D Panoptic Scene Completion with Context-Adaptive Instance Proposals
- Title(参考訳): IPFormer: コンテキスト適応型インスタンスの提案による視覚的な3Dパノプティクスシーンのコンプリート
- Authors: Markus Gross, Aya Fahmy, Danit Niwattananan, Dominik Muhle, Rui Song, Daniel Cremers, Henri Meeß,
- Abstract要約: IPFormerは、トレーニング時のコンテキスト適応型インスタンスの提案とテスト時間を利用して、視覚ベースの3Dパノプティクスシーンコンプリートに対処する最初のアプローチである。
PQ$dagger$とPQ-Allを総合的に比較すると,本手法が最先端の手法を超越していることが分かる。
結果は、視覚に基づく3Dパノプティクスシーンコンプリートに対処する先駆的な取り組みとして、コンテキスト適応型インスタンス提案の導入を強調した。
- 参考スコア(独自算出の注目度): 38.7599001774994
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic Scene Completion (SSC) has emerged as a pivotal approach for jointly learning scene geometry and semantics, enabling downstream applications such as navigation in mobile robotics. The recent generalization to Panoptic Scene Completion (PSC) advances the SSC domain by integrating instance-level information, thereby enhancing object-level sensitivity in scene understanding. While PSC was introduced using LiDAR modality, methods based on camera images remain largely unexplored. Moreover, recent Transformer-based SSC approaches utilize a fixed set of learned queries to reconstruct objects within the scene volume. Although these queries are typically updated with image context during training, they remain static at test time, limiting their ability to dynamically adapt specifically to the observed scene. To overcome these limitations, we propose IPFormer, the first approach that leverages context-adaptive instance proposals at train and test time to address vision-based 3D Panoptic Scene Completion. Specifically, IPFormer adaptively initializes these queries as panoptic instance proposals derived from image context and further refines them through attention-based encoding and decoding to reason about semantic instance-voxel relationships. Experimental results show that our approach surpasses state-of-the-art methods in overall panoptic metrics PQ$^\dagger$ and PQ-All, matches performance in individual metrics, and achieves a runtime reduction exceeding 14$\times$. Furthermore, our ablation studies reveal that dynamically deriving instance proposals from image context, as opposed to random initialization, leads to a 3.62% increase in PQ-All and a remarkable average improvement of 18.65% in combined Thing-metrics. These results highlight our introduction of context-adaptive instance proposals as a pioneering effort in addressing vision-based 3D Panoptic Scene Completion.
- Abstract(参考訳): セマンティックシーンコンプリート(SSC)は、シーンの幾何学とセマンティクスを共同学習するための重要なアプローチとして登場し、移動ロボットにおけるナビゲーションのような下流のアプリケーションを可能にする。
最近のPanoptic Scene Completion(PSC)への一般化は、インスタンスレベルの情報を統合することでSSCドメインを前進させ、シーン理解におけるオブジェクトレベルの感度を高める。
PSCはLiDARモダリティを用いて導入されたが、カメラ画像に基づく手法はほとんど探索されていない。
さらに、最近のTransformerベースのSSCアプローチでは、学習されたクエリの固定セットを使用して、シーンボリューム内のオブジェクトを再構築する。
これらのクエリは通常、トレーニング中のイメージコンテキストで更新されるが、テスト時には静的のままであり、観察されたシーンに特化して動的に適応する能力を制限する。
これらの制限を克服するために、我々は、視覚ベースの3Dパノプティクスシーンコンプリートに対処するために、トレーニング時にコンテキスト適応型インスタンスの提案を利用する最初のアプローチであるIPFormerを提案する。
具体的には、IPFormerはこれらのクエリを、画像コンテキストから派生したパノプティクスインスタンスの提案として適応的に初期化し、注意に基づくエンコーディングとデコードにより、セマンティックインスタンスとボクセルの関係を推論する。
PQ$^\dagger$ と PQ-All は個々の測定値のパフォーマンスと一致し,14$\times$ を超える実行時削減を実現する。
さらに,画像から動的にインスタンス提案を導出することにより,PQ-Allが3.62%増加し,Thing-metricsが18.65%向上した。
これらの結果は、視覚に基づく3Dパノプティカルシーンコンプリートに対処するための先駆的な取り組みとして、文脈適応型インスタンスの提案を取り上げている。
関連論文リスト
- Towards Generalizable Scene Change Detection [4.527270266697462]
現在最先端のScene Change Detectionアプローチは、目に見えない環境と異なる時間条件下では信頼性が低い。
本稿では,未確認領域の性能と時間的整合性に対処するため,GeSCF(Generalizable Scene Change Detection Framework)を提案する。
GeSCFは、既存のSCDデータセットで平均19.2%、ChangeVPRデータセットで30.0%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-09-10T04:45:25Z) - Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation [31.023236232633213]
近年の適応は、コントラストビジョン・ランゲージ事前訓練の低ショット能力を高めることができる。
本稿では,テスト段階の適応計算に先立って,視覚的コンテンツリファインメント(VCR)を提案する。
提案手法を,13のデータセットを持つ3つの一般的なローショットベンチマークタスクに適用し,最先端の手法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-07-19T08:34:23Z) - SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation [14.214197948110115]
本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。
Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。
ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-16T10:17:28Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - PerSense: Personalized Instance Segmentation in Dense Images [7.002657345547741]
PerSenseは、高密度画像のパーソナライズされたインスタンスセグメンテーションのためのエンドツーエンド、トレーニング不要、およびモデルに依存しないフレームワークである。
実験により,SOTA法と比較して高密度シナリオにおけるPerSenseの優位性を確立した。
論文 参考訳(メタデータ) (2024-05-22T10:26:44Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。