論文の概要: Parameter-Free Adaptive Multi-Scale Channel-Spatial Attention Aggregation framework for 3D Indoor Semantic Scene Completion Toward Assisting Visually Impaired
- arxiv url: http://arxiv.org/abs/2602.16385v1
- Date: Wed, 18 Feb 2026 11:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.588339
- Title: Parameter-Free Adaptive Multi-Scale Channel-Spatial Attention Aggregation framework for 3D Indoor Semantic Scene Completion Toward Assisting Visually Impaired
- Title(参考訳): 視覚障害者支援に向けた3次元屋内セマンティックシーンコンプリートのためのパラメータフリー適応型マルチスケールチャネル空間アテンションアグリゲーションフレームワーク
- Authors: Qi He, XiangXiang Wang, Jingtao Zhang, Yongbin Yu, Hongxiang Chu, Manping Fan, JingYe Cai, Zhenglin Yang,
- Abstract要約: 3Dセマンティックシーンコンプリート(SSC)は、厳密な単眼視下での構造的一貫性と意味的整合性を実現することが期待されている。
既存の単分子SSCアプローチは、しばしばボクセル機能信頼性の明示的なモデリングを欠いている。
本稿では,MonoSceneパイプライン上に構築されたアダプティブ・マルチスケールアテンション・アグリゲーション・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.350546796833058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In indoor assistive perception for visually impaired users, 3D Semantic Scene Completion (SSC) is expected to provide structurally coherent and semantically consistent occupancy under strictly monocular vision for safety-critical scene understanding. However, existing monocular SSC approaches often lack explicit modeling of voxel-feature reliability and regulated cross-scale information propagation during 2D-3D projection and multi-scale fusion, making them vulnerable to projection diffusion and feature entanglement and thus limiting structural stability.To address these challenges, this paper presents an Adaptive Multi-scale Attention Aggregation (AMAA) framework built upon the MonoScene pipeline. Rather than introducing a heavier backbone, AMAA focuses on reliability-oriented feature regulation within a monocular SSC framework. Specifically, lifted voxel features are jointly calibrated in semantic and spatial dimensions through parallel channel-spatial attention aggregation, while multi-scale encoder-decoder fusion is stabilized via a hierarchical adaptive feature-gating strategy that regulates information injection across scales.Experiments on the NYUv2 benchmark demonstrate consistent improvements over MonoScene without significantly increasing system complexity: AMAA achieves 27.25% SSC mIoU (+0.31) and 43.10% SC IoU (+0.59). In addition, system-level deployment on an NVIDIA Jetson platform verifies that the complete AMAA framework can be executed stably on embedded hardware. Overall, AMAA improves monocular SSC quality and provides a reliable and deployable perception framework for indoor assistive systems targeting visually impaired users.
- Abstract(参考訳): 3Dセマンティックシーンコンプリート(3D Semantic Scene Completion, SSC)は, 視覚障害者を対象とした屋内支援において, 安全クリティカルシーン理解のための厳密な単眼視下での構造的一貫性と意味的整合性を実現することが期待されている。
しかし,既存のモノクラーSSCアプローチでは,2次元3次元プロジェクションとマルチスケールフュージョンの間に,ボクセル機能信頼性の明示的なモデリングや,相互情報伝達の規制が欠如しているため,投射拡散や特徴の絡み合いに脆弱であり,構造的安定性を損なうことがしばしばある。
AMAAは重いバックボーンを導入するのではなく、単眼SSCフレームワーク内の信頼性指向の機能規制に重点を置いている。
AMAAは27.25% SSC mIoU (+0.31) と43.10% SC IoU (+0.59) を達成している。
さらに、NVIDIA Jetsonプラットフォーム上のシステムレベルのデプロイメントでは、完全なAMAAフレームワークが組み込みハードウェア上で安定して実行可能であることを確認する。
全体として、AMAAは単眼SSCの品質を改善し、視覚障害者を対象とした屋内支援システムのための信頼性とデプロイ可能な認識フレームワークを提供する。
関連論文リスト
- Multi-Resolution Alignment for Voxel Sparsity in Camera-Based 3D Semantic Scene Completion [52.959716866316604]
カメラベースの3Dセマンティックシーン補完(SSC)は、周囲の3Dシーンにおける各ボクセルの幾何学的占有度と意味ラベルを画像入力で評価するためのコスト効率の良いソリューションを提供する。
既存の手法は、自律運転シナリオにおけるボクセルの大部分が空であるので、ボクセルの空間性という課題に直面している。
カメラを用いた3Dセマンティックシーン補完におけるボクセル空間の分散を緩和するために,textitMulti-Resolution Alignment (MRA) アプローチを提案する。
論文 参考訳(メタデータ) (2026-02-03T10:46:51Z) - VSCOUT: A Hybrid Variational Autoencoder Approach to Outlier Detection in High-Dimensional Retrospective Monitoring [0.0]
VSCOUTは、高次元設定での振り返り(Phase I)監視のために設計された、配布不要のフレームワークである。
VSCOUTは、制御された偽アラームを維持しながら、特別な原因構造に対する優れた感度を実現する。
そのスケーラビリティ、分散柔軟性、レジリエンスは、AI対応環境でのリフレクションモデリングと異常検出の実用的で効果的な方法としてVSCOUTを位置づけている。
論文 参考訳(メタデータ) (2026-01-28T18:30:48Z) - SSVP: Synergistic Semantic-Visual Prompting for Industrial Zero-Shot Anomaly Detection [55.54007781679915]
本稿では,多種多様な視覚的エンコーディングを効率よく融合させ,モデルの微粒化知覚を高めるSynergistic Semantic-Visual Prompting (SSVP)を提案する。
SSVPは、MVTec-AD上で93.0%のImage-AUROCと92.2%のPixel-AUROCで最先端のパフォーマンスを達成し、既存のゼロショットアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-01-14T04:42:19Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction [15.656771219382076]
MS-Occは、新しいマルチステージLiDARカメラ融合フレームワークである。
これはLiDARの幾何学的忠実度とカメラベースのセマンティックリッチネスを統合する。
実験の結果、MS-Occは連合(IoU)を32.1%、平均IoU(mIoU)を25.3%で割った。
論文 参考訳(メタデータ) (2025-04-22T13:33:26Z) - PFSD: A Multi-Modal Pedestrian-Focus Scene Dataset for Rich Tasks in Semi-Structured Environments [73.80718037070773]
本稿では, 半構造化シーンに, nuScenesの形式を付加したマルチモーダルなPedestrian-Focused Sceneデータセットを提案する。
また,密集・隠蔽シナリオにおける歩行者検出のためのHMFN(Hybrid Multi-Scale Fusion Network)を提案する。
論文 参考訳(メタデータ) (2025-02-21T09:57:53Z) - DAGNet: A Dual-View Attention-Guided Network for Efficient X-ray Security Inspection [5.161531917413708]
我々は、効率的なX線セキュリティ検査(DAGNet)のためのデュアルビュー注意誘導ネットワークを提案する。
本研究は,共有重み付きバックボーンネットワークを基盤として,協調動作する3つの重要なモジュールを構築した。
DAGNetは、複数のバックボーンアーキテクチャにまたがる既存の最先端アプローチよりも優れていることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-02-03T15:18:54Z) - SSCBench: A Large-Scale 3D Semantic Scene Completion Benchmark for Autonomous Driving [87.8761593366609]
SSCBenchは、広く使用されている自動車データセットのシーンを統合するベンチマークである。
我々は、単眼、三眼、クラウド入力を用いて、性能ギャップを評価するモデルをベンチマークする。
クロスドメインの一般化テストを簡単にするために、さまざまなデータセットにまたがったセマンティックラベルを統一しています。
論文 参考訳(メタデータ) (2023-06-15T09:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。