Fugu-MT 論文翻訳(概要): Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion

論文の概要: Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion

arxiv url: http://arxiv.org/abs/2407.02077v4
Date: Wed, 06 Nov 2024 05:11:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.344043
Title: Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion
Title（参考訳）: カメラベースセマンティックシーン補完のための階層的時間文脈学習
Authors: Bohan Li, Jiajun Deng, Wenyao Zhang, Zhujin Liang, Dalong Du, Xin Jin, Wenjun Zeng,
Abstract要約: カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
参考スコア（独自算出の注目度）: 57.232688209606515
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Camera-based 3D semantic scene completion (SSC) is pivotal for predicting complicated 3D layouts with limited 2D image observations. The existing mainstream solutions generally leverage temporal information by roughly stacking history frames to supplement the current frame, such straightforward temporal modeling inevitably diminishes valid clues and increases learning difficulty. To address this problem, we present HTCL, a novel Hierarchical Temporal Context Learning paradigm for improving camera-based semantic scene completion. The primary innovation of this work involves decomposing temporal context learning into two hierarchical steps: (a) cross-frame affinity measurement and (b) affinity-based dynamic refinement. Firstly, to separate critical relevant context from redundant information, we introduce the pattern affinity with scale-aware isolation and multiple independent learners for fine-grained contextual correspondence modeling. Subsequently, to dynamically compensate for incomplete observations, we adaptively refine the feature sampling locations based on initially identified locations with high affinity and their neighboring relevant regions. Our method ranks $1^{st}$ on the SemanticKITTI benchmark and even surpasses LiDAR-based methods in terms of mIoU on the OpenOccupancy benchmark. Our code is available on https://github.com/Arlo0o/HTCL.
Abstract（参考訳）: カメラベースの3Dセマンティックシーン補完(SSC)は、2D画像の観察に制限のある複雑な3Dレイアウトを予測するために重要である。既存の主流のソリューションは一般的に、履歴フレームを概ね積み重ねて現在のフレームを補うことで、時間的情報を活用する。この問題に対処するために、カメラベースのセマンティックシーン補完を改善するための新しい階層型時間文脈学習パラダイムであるHTCLを提案する。この研究の主な革新は、時間的文脈学習を2つの階層的なステップに分解することである。 a)クロスフレーム親和性測定および (b)親和性に基づくダイナミックリファインメント。まず、重要コンテキストを冗長な情報から分離するために、パターン親和性とスケールアウェアアイソレーションと、よりきめ細かいコンテキスト対応モデリングのための複数の独立した学習者を導入する。その後、不完全観測を動的に補償するために、初期同定されたアフィニティの高い位置とその周辺地域に基づいて特徴サンプリング位置を適応的に洗練する。提案手法はSemanticKITTIベンチマークで1^{st}$をランク付けし,OpenOccupancyベンチマークでmIoUの点でLiDARベースのメソッドを超えている。私たちのコードはhttps://github.com/Arlo0o/HTCL.comで利用可能です。

関連論文リスト

SF3D-RGB: Scene Flow Estimation from Monocular Camera and Sparse LiDAR [17.224692757126153]
本稿では,2次元単眼画像と3次元点雲を用いたスパースシーンフロー推定のためのディープラーニングアーキテクチャを提案する。私たちのアーキテクチャはエンド・ツー・エンドのモデルで、まず各モダリティから情報を機能にエンコードし、それらを融合させます。実験により,提案手法は単一モダリティ法より優れ,実世界のデータセット上でのシーンフローの精度が向上することが示された。
論文参考訳（メタデータ） (2026-02-25T09:03:42Z)
Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-26T11:53:59Z)
SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。 SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2025-03-25T17:59:57Z)
EgoSplat: Open-Vocabulary Egocentric Scene Understanding with Language Embedded 3D Gaussian Splatting [108.15136508964011]
EgoSplatは、オープン・ボキャブラリ・エゴセントリック・シーン理解のための3Dガウス・スプレイティング・フレームワークである。 EgoSplatは2つのデータセット上のローカライゼーションタスクとセグメンテーションタスクの両方において、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-14T12:21:26Z)
Hierarchical Context Alignment with Disentangled Geometric and Temporal Modeling for Semantic Occupancy Prediction [61.484280369655536]
カメラを用いた3Dセマンティック占領予測(SOP)は、限られた2次元画像観察から複雑な3Dシーンを理解するのに不可欠である。既存のSOPメソッドは通常、占有表現学習を支援するためにコンテキストの特徴を集約する。より正確なSOP(Hi-SOP)のための新しい階層型コンテキストアライメントパラダイムを導入する。
論文参考訳（メタデータ） (2024-12-11T09:53:10Z)
Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。 LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文参考訳（メタデータ） (2024-10-24T17:54:42Z)
STARFlow: Spatial Temporal Feature Re-embedding with Attentive Learning for Real-world Scene Flow [5.476991379461233]
両ユークリッド空間における全点対に一致する大域的注意流埋め込みを提案する。我々は、新しいドメイン適応損失を利用して、合成から実世界への動き推論のギャップを埋める。提案手法は,実世界のLiDARスキャンデータセットにおいて特に顕著な結果を得て,各種データセットの最先端性能を実現する。
論文参考訳（メタデータ） (2024-03-11T04:56:10Z)
Learning Monocular Depth in Dynamic Environment via Context-aware Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-05-12T11:48:32Z)
IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding Alignment [58.8330387551499]
我々は、点方向軌跡(すなわち滑らかな曲線)の推定として問題を定式化する。本稿では,学習した時間的一貫性の助けを借りて問題を解消する,エンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法に対する大幅な改善を観察する。
論文参考訳（メタデータ） (2022-03-22T10:14:08Z)
Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文参考訳（メタデータ） (2022-03-06T13:57:09Z)
Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文参考訳（メタデータ） (2021-05-05T17:49:55Z)
LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory Alignment [0.0]
本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。 2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
論文参考訳（メタデータ） (2021-03-03T09:01:45Z)
SCFusion: Real-time Incremental Scene Reconstruction with Semantic Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文参考訳（メタデータ） (2020-10-26T15:31:52Z)
A Graph Attention Spatio-temporal Convolutional Network for 3D Human Pose Estimation in Video [7.647599484103065]
我々は,アテンション機構を用いた局所的グローバル空間情報のモデリングにより,人間の骨格における制約の学習を改善する。提案手法は, 奥行きのあいまいさと自己閉塞性を効果的に軽減し, 半上半身推定を一般化し, 2次元から3次元映像のポーズ推定における競合性能を実現する。
論文参考訳（メタデータ） (2020-03-11T14:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。