論文の概要: Monocular Semantic Scene Completion via Masked Recurrent Networks
- arxiv url: http://arxiv.org/abs/2507.17661v1
- Date: Wed, 23 Jul 2025 16:29:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:15.082779
- Title: Monocular Semantic Scene Completion via Masked Recurrent Networks
- Title(参考訳): 仮設リカレントネットワークによる単眼セマンティックシーンの補完
- Authors: Xuzhi Wang, Xinran Wu, Song Wang, Lingdong Kong, Ziping Zhao,
- Abstract要約: 既存の手法では,目に見える領域分割と隠蔽領域幻覚を同時に実現することを目的とした,単一段階のフレームワークが採用されている。
そこで我々は,MSSCを粗いMSSCに分解し,Masked Recurrent Networkを付加した新しい2段階フレームワークを提案する。
実験の結果,提案する統合型フレームワークであるMonoMRNは,屋内と屋外の両方のシーンを効果的にサポートしていることがわかった。
- 参考スコア(独自算出の注目度): 11.783890904850828
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Monocular Semantic Scene Completion (MSSC) aims to predict the voxel-wise occupancy and semantic category from a single-view RGB image. Existing methods adopt a single-stage framework that aims to simultaneously achieve visible region segmentation and occluded region hallucination, while also being affected by inaccurate depth estimation. Such methods often achieve suboptimal performance, especially in complex scenes. We propose a novel two-stage framework that decomposes MSSC into coarse MSSC followed by the Masked Recurrent Network. Specifically, we propose the Masked Sparse Gated Recurrent Unit (MS-GRU) which concentrates on the occupied regions by the proposed mask updating mechanism, and a sparse GRU design is proposed to reduce the computation cost. Additionally, we propose the distance attention projection to reduce projection errors by assigning different attention scores according to the distance to the observed surface. Experimental results demonstrate that our proposed unified framework, MonoMRN, effectively supports both indoor and outdoor scenes and achieves state-of-the-art performance on the NYUv2 and SemanticKITTI datasets. Furthermore, we conduct robustness analysis under various disturbances, highlighting the role of the Masked Recurrent Network in enhancing the model's resilience to such challenges. The source code is publicly available.
- Abstract(参考訳): モノクロセマンティックシーンコンプリート(MSSC)は,単一視点RGB画像からボクセルの占有度と意味カテゴリーを予測することを目的としている。
既存の手法では,視認領域のセグメンテーションと隠蔽領域の幻覚を同時に達成すると同時に,不正確な深度推定の影響も受けている。
このような手法は、特に複雑な場面において、しばしば準最適性能を達成する。
そこで本研究では,MSSCを粗いMSSCに分解し,Masked Recurrent Networkを付加した新しい2段階フレームワークを提案する。
具体的には,マスク更新機構によって占有領域に集中するマスケッドスパースGated Recurrent Unit (MS-GRU) を提案し,計算コストを削減するためにスパースGRU設計を提案する。
また,観測面からの距離に応じて異なる注目スコアを割り当てることで,予測誤差を低減するために,距離注意投影を提案する。
実験の結果,提案する統合フレームワーク MonoMRN は,室内と屋外の両方のシーンを効果的にサポートし,NYUv2 と SemanticKITTI データセットの最先端性能を実現していることがわかった。
さらに,これらの課題に対するモデルのレジリエンスを高める上でのMasked Recurrent Networkの役割を強調し,様々な障害下でロバストネス解析を行う。
ソースコードは公開されている。
関連論文リスト
- MaskAttn-UNet: A Mask Attention-Driven Framework for Universal Low-Resolution Image Segmentation [5.130440339897479]
MaskAttn-UNetはマスクアテンション機構を通じて従来のU-Netアーキテクチャを強化する新しいセグメンテーションフレームワークである。
本モデルでは,無関係な背景を抑えながら重要な領域を選択的に強調し,乱れや複雑なシーンのセグメンテーション精度を向上させる。
以上の結果から,MaskAttn-UNetは変圧器モデルよりも計算コストが大幅に低く,最先端の手法に匹敵する精度を達成できた。
論文 参考訳(メタデータ) (2025-03-11T22:43:26Z) - RUN: Reversible Unfolding Network for Concealed Object Segmentation [61.13528324971598]
マスクドメインとRGBドメインの両方にわたる可逆戦略。
マスクとRGBドメインをまたいだ可逆的戦略を適用したReversible Unfolding Network (RUN)を提案する。
論文 参考訳(メタデータ) (2025-01-30T22:19:15Z) - Exact: Exploring Space-Time Perceptive Clues for Weakly Supervised Satellite Image Time Series Semantic Segmentation [11.193770734116981]
本論文は,作物マッピングタスクを総括的アノテーション負担から解放する,弱教師付きパラダイム(画像レベルのカテゴリのみ使用可能な)を取り入れたものである。
本稿では,時空知覚的手がかりを探索する新しい手法を提案する。
本手法は,様々なSITSベンチマークにおいて顕著な性能を示す。
論文 参考訳(メタデータ) (2024-12-05T08:37:56Z) - Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Reprojection Errors as Prompts for Efficient Scene Coordinate Regression [9.039259735902625]
シーン座標回帰(SCR)法は、正確な視覚的位置決めの可能性から、将来的な研究分野として浮上している。
既存のSCRアプローチの多くは、動的オブジェクトやテクスチャレス領域を含む、すべてのイメージ領域からのサンプルをトレーニングする。
我々は,Segment Anything Model (SAM) を用いて,誤り誘導型特徴選択機構を導入する。
このメカニズムは、プロンプトとして低い再投射領域を発生させ、それらをエラー誘導マスクに拡張し、これらのマスクを使用して点をサンプリングし、問題領域を反復的にフィルタリングする。
論文 参考訳(メタデータ) (2024-09-06T10:43:34Z) - Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - Region-aware Distribution Contrast: A Novel Approach to Multi-Task Partially Supervised Learning [50.88504784466931]
マルチタスク密度予測にはセマンティックセグメンテーション、深さ推定、表面正規推定が含まれる。
既存のソリューションは通常、グローバルなクロスタスク画像マッチングのためのグローバルなイメージ表現の学習に依存している。
本提案では,ガウス分布を用いた地域表現をモデル化する。
論文 参考訳(メタデータ) (2024-03-15T12:41:30Z) - SODAR: Segmenting Objects by DynamicallyAggregating Neighboring Mask
Representations [90.8752454643737]
最近の最先端のワンステージインスタンスセグメンテーションモデルSOLOは、入力画像をグリッドに分割し、完全な畳み込みネットワークを備えたグリッドセルオブジェクトマスクを直接予測する。
我々は,SOLOが近傍の格子セルの物体に対して類似したマスクを生成するのを観察する。
観測されたギャップによってモチベーションを得た学習ベースのアグリゲーション手法を開発し,そのリッチな隣り合う情報を活用してSOLOを改善する。
論文 参考訳(メタデータ) (2022-02-15T13:53:03Z) - Calibrated Hyperspectral Image Reconstruction via Graph-based
Self-Tuning Network [40.71031760929464]
ハイパースペクトルイメージング(HSI)は、特に符号化スナップショット分光イメージング(CASSI)システムに基づく画像に対して、研究の注目を集めている。
既存の深いHSI再構成モデルは、CASSIの特定の光学ハードウェアマスクが与える2次元圧縮計測に基づいて元の信号を取得するために、ペアデータで訓練される。
このマスク固有のトレーニングスタイルは、ハードウェアの誤校正問題を引き起こし、異なるハードウェアとノイズの多い環境間で深いHSIモデルをデプロイする障壁を設定できる。
マスクの空間構造の変化に適応する不確実性を推論するグラフベース自己調整(GST)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-31T09:39:13Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z) - Spatial and spectral deep attention fusion for multi-channel speech
separation using deep embedding features [60.20150317299749]
マルチチャネルディープクラスタリング(MDC)は、音声分離に優れた性能を得た。
本研究では,スペクトルおよび空間的特徴の重みを動的に制御し,それらを深く結合するディープ・アテンション・フュージョン法を提案する。
実験結果から,提案手法はMDCベースラインよりも優れ,理想的なバイナリマスク(IBM)よりも優れていた。
論文 参考訳(メタデータ) (2020-02-05T03:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。