Fugu-MT 論文翻訳(概要): DFA3D: 3D Deformable Attention For 2D-to-3D Feature Lifting

論文の概要: DFA3D: 3D Deformable Attention For 2D-to-3D Feature Lifting

arxiv url: http://arxiv.org/abs/2307.12972v1
Date: Mon, 24 Jul 2023 17:49:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-25 13:11:25.843848
Title: DFA3D: 3D Deformable Attention For 2D-to-3D Feature Lifting
Title（参考訳）: DFA3D:2Dから3D機能リフティングのための3D変形型アテンション
Authors: Hongyang Li, Hao Zhang, Zhaoyang Zeng, Shilong Liu, Feng Li, Tianhe Ren, and Lei Zhang
Abstract要約: 本稿では,DFA3Dと呼ばれる2D-to-3D機能リフトのための新しい演算子を提案する。 DFA3Dは、多視点2D画像の特徴を3Dオブジェクト検出のための統一された3D空間に変換する。
参考スコア（独自算出の注目度）: 28.709044035867596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a new operator, called 3D DeFormable Attention (DFA3D), for 2D-to-3D feature lifting, which transforms multi-view 2D image features into a unified 3D space for 3D object detection. Existing feature lifting approaches, such as Lift-Splat-based and 2D attention-based, either use estimated depth to get pseudo LiDAR features and then splat them to a 3D space, which is a one-pass operation without feature refinement, or ignore depth and lift features by 2D attention mechanisms, which achieve finer semantics while suffering from a depth ambiguity problem. In contrast, our DFA3D-based method first leverages the estimated depth to expand each view's 2D feature map to 3D and then utilizes DFA3D to aggregate features from the expanded 3D feature maps. With the help of DFA3D, the depth ambiguity problem can be effectively alleviated from the root, and the lifted features can be progressively refined layer by layer, thanks to the Transformer-like architecture. In addition, we propose a mathematically equivalent implementation of DFA3D which can significantly improve its memory efficiency and computational speed. We integrate DFA3D into several methods that use 2D attention-based feature lifting with only a few modifications in code and evaluate on the nuScenes dataset. The experiment results show a consistent improvement of +1.41\% mAP on average, and up to +15.1\% mAP improvement when high-quality depth information is available, demonstrating the superiority, applicability, and huge potential of DFA3D. The code is available at https://github.com/IDEA-Research/3D-deformable-attention.git.
Abstract（参考訳）: 本稿では,DFA3Dと呼ばれる2D-to-3D機能昇降のための新しい演算子を提案し,多視点2D画像特徴を3Dオブジェクト検出のための統一された3D空間に変換する。リフトプレートベースや2dアテンションベースといった既存の機能昇降アプローチでは、推定された深度を使って擬似lidar特徴を取得し、それらを3d空間にスプリットするか、2dアテンション機構による深さとリフトの特徴を無視するかのどちらかであり、深さあいまいな問題に苦しめながらより詳細なセマンティクスを実現する。対照的に、DFA3Dに基づく手法では、まず推定深度を利用して各ビューの2D特徴マップを3Dに拡張し、DFA3Dを用いて拡張された3D特徴マップから特徴を集約する。 DFA3Dの助けを借りて、深さのあいまいさ問題はルートから効果的に緩和することができ、トランスフォーマーのようなアーキテクチャのおかげで、昇降した特徴は層ごとに徐々に洗練される。さらに,dfa3dのメモリ効率と計算速度を大幅に向上できる数学的に等価な実装を提案する。 DFA3Dを2Dアテンションベースの機能リフトを使用するいくつかのメソッドに統合し、コードにわずかな変更を加えてnuScenesデータセットを評価する。実験の結果、平均で+1.41\% mAPが一貫した改善を示し、高品質の深度情報が得られると+15.1\% mAPが改善され、DFA3Dの優位性、適用性、そして大きなポテンシャルが示された。コードはhttps://github.com/idea-research/3d-deformable-attention.gitで入手できる。

関連論文リスト

Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。 3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文参考訳（メタデータ） (2025-06-05T17:56:12Z)
Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-30T05:57:01Z)
Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。 3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文参考訳（メタデータ） (2024-07-29T17:59:21Z)
Any2Point: Empowering Any-modality Large Models for Efficient 3D Understanding [83.63231467746598]
我々は,Any2Pointというパラメータ効率のよい大規模モデル(ビジョン,言語,音声)を3次元理解に活用する手法を紹介した。入力された3Dポイントと元の1Dまたは2D位置との相関関係を示す3D-to-any (1Dまたは2D)仮想プロジェクション戦略を提案する。
論文参考訳（メタデータ） (2024-04-11T17:59:45Z)
GOEmbed: Gradient Origin Embeddings for Representation Agnostic 3D Feature Learning [67.61509647032862]
入力された2次元画像を任意の3次元表現にエンコードするGOEmbed(Gradient Origin Embeddings)を提案する。入力画像が大きな事前訓練されたモデルから抽出された2D特徴を用いて符号化される典型的な従来のアプローチとは異なり、カスタマイズされた特徴は異なる3D表現を扱うように設計されている。
論文参考訳（メタデータ） (2023-12-14T08:39:39Z)
BUOL: A Bottom-Up Framework with Occupancy-aware Lifting for Panoptic 3D Scene Reconstruction From A Single Image [33.126045619754365]
BUOLはOccupancy-aware Liftingを備えたフレームワークであり、単一の画像からパノプティカル3Dシーンを再構築する際の2つの問題に対処する。提案手法は,3D-Frontおよび実世界のデータセットMatterport3Dにおける最先端の手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T17:56:49Z)
3D-Aware Indoor Scene Synthesis with Depth Priors [62.82867334012399]
既存の手法では、室内配置や内部の物体の多様さのため、屋内シーンのモデル化に失敗する。室内のシーンは共通な内在構造を持たず、2次元画像のみを用いるだけでは3次元形状のモデルが適切にガイドできない。
論文参考訳（メタデータ） (2022-02-17T09:54:29Z)
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文参考訳（メタデータ） (2021-04-22T09:35:35Z)
3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文参考訳（メタデータ） (2021-04-06T02:22:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。