Fugu-MT 論文翻訳(概要): VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

論文の概要: VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

arxiv url: http://arxiv.org/abs/2603.00912v1
Date: Sun, 01 Mar 2026 04:25:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.410469
Title: VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection
Title（参考訳）: VGGT-Det:センサ・ジオメトリフリー屋内3次元物体検出のためのVGGT内部プライオリティのマイニング
Authors: Yang Cao, Feize Wu, Dave Zhenyu Chen, Yingji Zhong, Lanqing Hong, Dan Xu,
Abstract要約: 現在のマルチビュー屋内3Dオブジェクト検出器は、取得に費用がかかるセンサー幾何学に依存している。 VGGT-DetはSG-Freeマルチビュー屋内3Dオブジェクト検出に適した最初のフレームワークである。
参考スコア（独自算出の注目度）: 36.17507198972377
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.
Abstract（参考訳）: 現在のマルチビュー屋内3Dオブジェクト検出器は、マルチビュー情報をグローバルなシーン表現に融合させ、現実世界のシーンへの展開を制限するために、コストがかかるセンサー幾何学(正確に調整されたマルチビューカメラポーズ)に依存している。センサ・ジオメトリ・フリー(SG-Free) 屋内3次元物体検出。最近のVisual Geometry Grounded Transformer (VGGT) は、強い3次元キューを画像から直接推測できることを示している。この知見に基づいて,SG-Freeマルチビュー屋内3Dオブジェクト検出に適した最初のフレームワークであるVGGT-Detを提案する。我々の手法は単にVGGT予測を消費するのではなく、VGGTエンコーダを変換器ベースのパイプラインに統合する。 VGGTの内部から意味的および幾何学的先行を効果的に活用するために、我々は2つの新しいキーコンポーネントを紹介した。 (i)注意誘導クエリ生成(AG):オブジェクトクエリを初期化し、グローバル空間構造を保ちながらオブジェクト領域に着目してローカライズを改善するために、VGGTアテンションマップをセマンティック先行として活用する。 Query-Driven Feature Aggregation (QD): 学習可能なSee-Queryは、オブジェクトクエリと対話して、必要なものを'見る'ために、VGGT層にまたがる複数のレベルの幾何学的特徴を動的に集約し、2D機能を3Dに段階的に持ち上げる。実験の結果、VGGT-DetはScanNetとARKitScenesでそれぞれ4.4mAP@0.25と8.6mAP@0.25のSG-Free設定で最高のパフォーマンスの手法をはるかに上回っていることがわかった。アブレーション研究により,VGGTの内部学習された意味的および幾何学的先行性は,当社のAGとQDによって効果的に活用できることが示されている。

関連論文リスト

GPA-VGGT:Adapting VGGT to Large Scale Localization by Self-Supervised Learning with Geometry and Physics Aware Loss [15.633839321933385]
近年のVisual Geometry Grounded Transformer (VGGT) モデルの進歩は、カメラのポーズ推定と3次元再構成において大きな可能性を秘めている。これらのモデルは通常、トレーニングのために真実のラベルを頼りにしており、ラベルのない、目に見えないシーンに適応する際の課題を提起している。本稿では,VGGTをラベルのないデータで訓練する自己教師型フレームワークを提案する。
論文参考訳（メタデータ） (2026-01-23T16:46:59Z)
On Geometric Understanding and Learned Data Priors in VGGT [38.8968170074396]
Visual Geometry Grounded Transformer (VGGT) は、カメラ形状とシーン構造を単一のフィードフォワードパスで推論する3次元基礎モデルである。本稿では,VGGTの内部機構を体系的に解析し,幾何学的理解が表現の中に現れるかどうかを明らかにする。
論文参考訳（メタデータ） (2025-12-12T12:11:57Z)
IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文参考訳（メタデータ） (2025-10-26T14:57:44Z)
FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。 1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文参考訳（メタデータ） (2025-09-02T17:54:21Z)
VGGT: Visual Geometry Grounded Transformer [61.37669770946458]
VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。ネットワークは、複数の3Dタスクで最先端の結果を達成する。
論文参考訳（メタデータ） (2025-03-14T17:59:47Z)
UCDNet: Multi-UAV Collaborative 3D Object Detection Network by Reliable Feature Mapping [14.401624713578737]
マルチUAVコラボレーティブな3Dオブジェクト検出は複雑な環境を知覚し理解することができる。カメラによる複数UAV協調3Dオブジェクト検出のパラダイムであるUCDNetを提案する。本手法は, ベースラインに比べて4.7%, 10%mAPの増加を示した。
論文参考訳（メタデータ） (2024-06-07T05:27:32Z)
Viewpoint Equivariance for Multi-View 3D Object Detection [35.4090127133834]
最先端の手法は多視点カメラ入力からのオブジェクト境界ボックスの推論と復号化に重点を置いている。本稿では,3次元多視点幾何を利用した新しい3次元オブジェクト検出フレームワークであるVEDetを紹介する。
論文参考訳（メタデータ） (2023-03-25T19:56:41Z)
Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文参考訳（メタデータ） (2023-01-06T18:52:12Z)
BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文参考訳（メタデータ） (2020-03-09T15:08:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。