論文の概要: Spatial Lifting for Dense Prediction
- arxiv url: http://arxiv.org/abs/2507.10222v1
- Date: Mon, 14 Jul 2025 12:39:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.873918
- Title: Spatial Lifting for Dense Prediction
- Title(参考訳): デンス予測のための空間リフティング
- Authors: Mingzhi Xu, Yizhe Zhang,
- Abstract要約: 本稿では,高密度予測タスクのための新しい手法であるSpatial Lifting(SL)を提案する。
SLは2D画像などの標準的な入力を高次元空間に持ち上げ、その後3D U-Netのような高次元のために設計されたネットワークを用いて処理する。
我々は、19のベンチマークデータセットにまたがるアプローチを検証するとともに、モデルパラメータ数を98%以上削減し、推論コストを下げながら、競合する高密度予測性能を実証した。
- 参考スコア(独自算出の注目度): 6.596393783279435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Spatial Lifting (SL), a novel methodology for dense prediction tasks. SL operates by lifting standard inputs, such as 2D images, into a higher-dimensional space and subsequently processing them using networks designed for that higher dimension, such as a 3D U-Net. Counterintuitively, this dimensionality lifting allows us to achieve good performance on benchmark tasks compared to conventional approaches, while reducing inference costs and significantly lowering the number of model parameters. The SL framework produces intrinsically structured outputs along the lifted dimension. This emergent structure facilitates dense supervision during training and enables robust, near-zero-additional-cost prediction quality assessment at test time. We validate our approach across 19 benchmark datasets (13 for semantic segmentation and 6 for depth estimation), demonstrating competitive dense prediction performance while reducing the model parameter count by over 98% (in the U-Net case) and lowering inference costs. Spatial Lifting introduces a new vision modeling paradigm that offers a promising path toward more efficient, accurate, and reliable deep networks for dense prediction tasks in vision.
- Abstract(参考訳): 本稿では,高密度予測タスクのための新しい手法であるSpatial Lifting(SL)を提案する。
SLは2D画像などの標準的な入力を高次元空間に持ち上げ、その後3D U-Netのような高次元のために設計されたネットワークを用いて処理する。
反対に、この次元持ち上げにより、従来の手法に比べてベンチマークタスクの性能が向上し、推論コストが低減され、モデルパラメータの数が大幅に減少する。
SLフレームワークは、昇降次元に沿って本質的に構造化された出力を生成する。
この創発的構造は、トレーニング中の密集的な監視を促進し、テスト時に堅牢で、ほぼゼロの付加コストの予測品質評価を可能にする。
提案手法は,19のベンチマークデータセット(セマンティックセグメンテーションでは13,深さ推定では6)にまたがって検証し,モデルのパラメータ数を98%以上(U-Netの場合)削減し,推論コストの低減を図る。
空間リフティング(Spatial Lifting)は、視覚の高密度な予測タスクのために、より効率的で正確で信頼性の高いディープネットワークへの有望な経路を提供する新しいビジョンモデリングパラダイムを導入する。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - OccLoff: Learning Optimized Feature Fusion for 3D Occupancy Prediction [5.285847977231642]
3Dセマンティック占有予測は、自動運転の安全性を確保するために不可欠である。
既存のフュージョンベースの占有法では、画像の特徴に対して2次元から3次元のビュー変換を行うのが一般的である。
OccLoffは3次元占有予測のためにFeature Fusionを最適化するフレームワークである。
論文 参考訳(メタデータ) (2024-11-06T06:34:27Z) - OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Rethinking Lightweight Salient Object Detection via Network Depth-Width
Tradeoff [26.566339984225756]
既存の有能なオブジェクト検出手法では、より深いネットワークが採用され、性能が向上する。
本稿では,U字形構造を3つの相補枝に分解することで,新しい3方向デコーダフレームワークを提案する。
提案手法は,5つのベンチマークにおいて効率と精度のバランスが良くなることを示す。
論文 参考訳(メタデータ) (2023-01-17T03:43:25Z) - Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction [63.3021778885906]
3Dバウンディングボックスは、多くのコンピュータビジョンアプリケーションで広く使われている中間表現である。
本稿では,自己回帰モデルを利用して高い信頼度予測と意味のある不確実性対策を行う手法を提案する。
我々はシミュレーションデータセットであるCOB-3Dをリリースし、現実世界のロボティクスアプリケーションで発生する新しいタイプのあいまいさを強調します。
論文 参考訳(メタデータ) (2022-10-13T23:57:40Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - Recursive Contour Saliency Blending Network for Accurate Salient Object
Detection [0.0]
本研究では,有能な物体検出におけるエッジ品質向上のためのネットワークを設計した。
輪郭と塩分を交換するための輪郭・塩分混合モジュールを提案した。
我々のモデルは軽量で高速で、パラメータはわずか279万、リアルタイム推論は31FPSである。
論文 参考訳(メタデータ) (2021-05-28T14:19:54Z) - Generative Sparse Detection Networks for 3D Single-shot Object Detection [43.91336826079574]
3Dオブジェクト検出は、ロボット工学や拡張現実など多くの有望な分野に適用可能であるため、広く研究されている。
しかし、3Dデータのまばらな性質は、このタスクに固有の課題をもたらしている。
本稿では,完全畳み込み単一ショットスパース検出ネットワークであるGenerative Sparse Detection Network (GSDN)を提案する。
論文 参考訳(メタデータ) (2020-06-22T15:54:24Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。