Fugu-MT 論文翻訳(概要): IPFormer: Visual 3D Panoptic Scene Completion with Context-Adaptive Instance Proposals

論文の概要: IPFormer: Visual 3D Panoptic Scene Completion with Context-Adaptive Instance Proposals

arxiv url: http://arxiv.org/abs/2506.20671v2
Date: Fri, 24 Oct 2025 12:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-28 09:00:15.061623
Title: IPFormer: Visual 3D Panoptic Scene Completion with Context-Adaptive Instance Proposals
Title（参考訳）: IPFormer: コンテキスト適応型インスタンスの提案による視覚的な3Dパノプティクスシーンのコンプリート
Authors: Markus Gross, Aya Fahmy, Danit Niwattananan, Dominik Muhle, Rui Song, Daniel Cremers, Henri Meeß,
Abstract要約: IPFormerは、トレーニング時のコンテキスト適応型インスタンスの提案とテスト時間を利用して、視覚ベースの3Dパノプティクスシーンコンプリートに対処する最初の方法である。提案手法は、最先端のドメイン内性能を実現し、ドメイン外データに対して優れたゼロショット一般化を示し、実行時の削減を14倍以上に達成する。
参考スコア（独自算出の注目度）: 46.42680194273328
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic Scene Completion (SSC) has emerged as a pivotal approach for jointly learning scene geometry and semantics, enabling downstream applications such as navigation in mobile robotics. The recent generalization to Panoptic Scene Completion (PSC) advances the SSC domain by integrating instance-level information, thereby enhancing object-level sensitivity in scene understanding. While PSC was introduced using LiDAR modality, methods based on camera images remain largely unexplored. Moreover, recent Transformer-based approaches utilize a fixed set of learned queries to reconstruct objects within the scene volume. Although these queries are typically updated with image context during training, they remain static at test time, limiting their ability to dynamically adapt specifically to the observed scene. To overcome these limitations, we propose IPFormer, the first method that leverages context-adaptive instance proposals at train and test time to address vision-based 3D Panoptic Scene Completion. Specifically, IPFormer adaptively initializes these queries as panoptic instance proposals derived from image context and further refines them through attention-based encoding and decoding to reason about semantic instance-voxel relationships. Extensive experimental results show that our approach achieves state-of-the-art in-domain performance, exhibits superior zero-shot generalization on out-of-domain data, and achieves a runtime reduction exceeding 14x. These results highlight our introduction of context-adaptive instance proposals as a pioneering effort in addressing vision-based 3D Panoptic Scene Completion.
Abstract（参考訳）: セマンティックシーンコンプリート(SSC)は、シーンの幾何学とセマンティクスを共同学習するための重要なアプローチとして登場し、移動ロボットにおけるナビゲーションのような下流のアプリケーションを可能にする。最近のPanoptic Scene Completion(PSC)への一般化は、インスタンスレベルの情報を統合することでSSCドメインを前進させ、シーン理解におけるオブジェクトレベルの感度を高める。 PSCはLiDARモダリティを用いて導入されたが、カメラ画像に基づく手法はほとんど探索されていない。さらに、最近のTransformerベースのアプローチでは、学習されたクエリの固定セットを使用して、シーンボリューム内のオブジェクトを再構築する。これらのクエリは通常、トレーニング中のイメージコンテキストで更新されるが、テスト時には静的のままであり、観察されたシーンに特化して動的に適応する能力を制限する。これらの制限を克服するために、我々は、視覚に基づく3Dパノプティクスシーンコンプリートに対処するために、トレーニング時にコンテキスト適応型インスタンスの提案とテスト時間を活用する最初の方法であるIPFormerを提案する。具体的には、IPFormerはこれらのクエリを、画像コンテキストから派生したパノプティクスインスタンスの提案として適応的に初期化し、注意に基づくエンコーディングとデコードにより、セマンティックインスタンスとボクセルの関係を推論する。大規模な実験結果から,本手法は最先端のドメイン内性能を実現し,ドメイン外データに対するゼロショットの一般化に優れ,実行時の縮小が14倍を超えることが示唆された。これらの結果は、視覚に基づく3Dパノプティカルシーンコンプリートに対処するための先駆的な取り組みとして、文脈適応型インスタンスの提案を取り上げている。

関連論文リスト

Few-Shot Remote Sensing Image Scene Classification with CLIP and Prompt Learning [0.9558392439655014]
我々は,数ショットのリモートセンシング画像シーン分類のための軽量かつ効率的な適応戦略として,即時学習を探求する。これらのプロンプト学習手法を,手作りプロンプトを用いたゼロショットCLIPと,凍結したCLIPの特徴を訓練した線形プローブの2つの標準ベースラインに対してベンチマークした。我々の研究結果は、衛星画像と空中画像の領域ギャップを埋めるスケーラブルで効率的な方法として、迅速な学習を裏付けている。
論文参考訳（メタデータ） (2025-10-28T11:39:22Z)
Cross-Modal Scene Semantic Alignment for Image Complexity Assessment [36.74012235496745]
クロスモーダルなシーンセマンティック情報は、様々なコンピュータビジョンタスクにおいて重要な役割を果たすことが示されている。 ICA性能を向上させるために,Cross-Modal Scene Semantic Alignment (CM-SSA) と呼ばれる新しいICA手法を提案する。いくつかのICAデータセットの実験により、提案したCM-SSAは最先端のアプローチよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-10-21T07:52:40Z)
SPORTS: Simultaneous Panoptic Odometry, Rendering, Tracking and Segmentation for Urban Scenes Understanding [0.0]
本稿では,全体像理解のための新しいフレームワーク SPORTS を提案する。 Video Panoptic (VPS)、Visual Odometry (VO)、Scene Renderingタスクを反復的で統一された視点に統合する。我々の注意に基づく特徴融合は、計測、追跡、セグメンテーション、新しいビュータスクにおいて、既存の最先端の合成方法よりも優れています。
論文参考訳（メタデータ） (2025-10-14T17:28:19Z)
Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2025-08-24T15:45:22Z)
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。 SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文参考訳（メタデータ） (2025-07-21T17:59:02Z)
Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文参考訳（メタデータ） (2024-12-11T09:53:10Z)
Towards Generalizable Scene Change Detection [4.527270266697462]
現在最先端のScene Change Detectionアプローチは、目に見えない環境と異なる時間条件下では信頼性が低い。本稿では,未確認領域の性能と時間的整合性に対処するため,GeSCF(Generalizable Scene Change Detection Framework)を提案する。 GeSCFは、既存のSCDデータセットで平均19.2%、ChangeVPRデータセットで30.0%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-09-10T04:45:25Z)
Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation [31.023236232633213]
近年の適応は、コントラストビジョン・ランゲージ事前訓練の低ショット能力を高めることができる。本稿では,テスト段階の適応計算に先立って,視覚的コンテンツリファインメント(VCR)を提案する。提案手法を,13のデータセットを持つ3つの一般的なローショットベンチマークタスクに適用し,最先端の手法よりも大幅に改善した。
論文参考訳（メタデータ） (2024-07-19T08:34:23Z)
SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation [14.214197948110115]
本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。 Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。 ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-07-16T10:17:28Z)
Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文参考訳（メタデータ） (2024-07-02T09:11:17Z)
PerSense: Personalized Instance Segmentation in Dense Images [7.002657345547741]
PerSenseは、高密度画像のパーソナライズされたインスタンスセグメンテーションのためのエンドツーエンド、トレーニング不要、およびモデルに依存しないフレームワークである。実験により,SOTA法と比較して高密度シナリオにおけるPerSenseの優位性を確立した。
論文参考訳（メタデータ） (2024-05-22T10:26:44Z)
Point-In-Context: Understanding Point Cloud via In-Context Learning [67.20277182808992]
In-context Learningによる3Dポイントクラウド理解のための新しいフレームワークであるPoint-In-Context(PIC)を紹介した。マスク付き点モデリングを3次元点群に効果的に拡張するという技術的課題に,Joint Smplingモジュールを導入して対処する。 In-Context LabelingとIn-Context Enhancingという2つの新しいトレーニング戦略を提案し、PICの拡張版であるPoint-In-Context-Segmenter(PIC-S)を作成している。
論文参考訳（メタデータ） (2024-04-18T17:32:32Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文参考訳（メタデータ） (2023-12-21T07:49:27Z)
P{\O}DA: Prompt-driven Zero-shot Domain Adaptation [27.524962843495366]
我々は,対象領域の自然言語,すなわちプロンプトの一般的な記述のみを用いて,ソースドメイン上で訓練されたモデルを適用する。本稿では,これらのプロンプト駆動による拡張が,セマンティックセグメンテーションのためのゼロショットドメイン適応の実行に有効であることを示す。
論文参考訳（メタデータ） (2022-12-06T18:59:58Z)
Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。 CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文参考訳（メタデータ） (2022-01-26T14:31:55Z)
Continual Learning for Image-Based Camera Localization [14.47046413243358]
連続学習環境における視覚的局所化の問題について検討する。以上の結果から,非定常データも分類領域と同様,深層ネットワークにおいて視覚的局所化のための破滅的な忘れを生じさせることが示された。本稿では,バッファリングプロセスにおける既存のサンプリング戦略を視覚的ローカライゼーションの問題に適応させる,カバレッジスコア(Buff-CS)に基づく新しいサンプリング手法を提案する。
論文参考訳（メタデータ） (2021-08-20T11:18:05Z)
Self-supervised Human Detection and Segmentation via Multi-view Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文参考訳（メタデータ） (2020-12-09T15:47:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。