論文の概要: SVII-3D: Advancing Roadside Infrastructure Inventory with Decimeter-level 3D Localization and Comprehension from Sparse Street Imagery
- arxiv url: http://arxiv.org/abs/2601.10535v1
- Date: Thu, 15 Jan 2026 15:57:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.207891
- Title: SVII-3D: Advancing Roadside Infrastructure Inventory with Decimeter-level 3D Localization and Comprehension from Sparse Street Imagery
- Title(参考訳): SVII-3D:Sparse Street Imagery による道路側インフラインベントリの3次元位置決定と理解の促進
- Authors: Chong Liu, Luxuan Fu, Yang Jia, Zhen Dong, Bisheng Yang,
- Abstract要約: SVII-3Dは、総合資産デジタル化のための統一されたフレームワークである。
LoRA微細調整されたオープンセット検出は、空間的アテンションマッチングネットワークと融合し、スパースビュー間で観測を強力に関連付ける。
SVII-3Dは同定精度を著しく向上し、局所化誤差を最小化することを示した。
- 参考スコア(独自算出の注目度): 11.807389677546134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automated creation of digital twins and precise asset inventories is a critical task in smart city construction and facility lifecycle management. However, utilizing cost-effective sparse imagery remains challenging due to limited robustness, inaccurate localization, and a lack of fine-grained state understanding. To address these limitations, SVII-3D, a unified framework for holistic asset digitization, is proposed. First, LoRA fine-tuned open-set detection is fused with a spatial-attention matching network to robustly associate observations across sparse views. Second, a geometry-guided refinement mechanism is introduced to resolve structural errors, achieving precise decimeter-level 3D localization. Third, transcending static geometric mapping, a Vision-Language Model agent leveraging multi-modal prompting is incorporated to automatically diagnose fine-grained operational states. Experiments demonstrate that SVII-3D significantly improves identification accuracy and minimizes localization errors. Consequently, this framework offers a scalable, cost-effective solution for high-fidelity infrastructure digitization, effectively bridging the gap between sparse perception and automated intelligent maintenance.
- Abstract(参考訳): デジタル双生児と正確な資産在庫の自動作成は、スマートシティの構築と施設ライフサイクル管理において重要な課題である。
しかし,ロバスト性,不正確な局所化,きめ細かい状態理解の欠如などにより,費用対効果の高いスパース画像の利用は依然として困難である。
これらの制約に対処するため,総括資産デジタル化のための統合フレームワークであるSVII-3Dを提案する。
まず、LoRA微調整オープンセット検出を空間的アテンションマッチングネットワークで融合し、スパースビュー間の観測を堅牢に関連付ける。
第2に、構造誤差を解消し、精密な3次元位置決めを実現するために、幾何学誘導型精細化機構を導入する。
第3に,マルチモーダルプロンプトを利用した視覚言語モデルエージェントの静的幾何マッピングを経時的に行い,微細な操作状態を自動診断する。
SVII-3Dは同定精度を著しく向上し、局所化誤差を最小化することを示した。
その結果、このフレームワークは高忠実度インフラストラクチャのデジタル化のためのスケーラブルで費用対効果の高いソリューションを提供し、スパース認識と自動化されたインテリジェントメンテナンスのギャップを効果的に埋める。
関連論文リスト
- Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-12-14T20:02:43Z) - ShelfOcc: Native 3D Supervision beyond LiDAR for Vision-Based Occupancy Estimation [9.977834471775816]
我々は、LiDARに頼ることなく制限を克服する、視覚のみのShelfOccを紹介した。
ShelfOccは、ビデオからメートル法的に一貫したセマンティックなボクセルラベルを生成することで、ネイティブな3D空間を監督する。
本手法では,フレーム間の静的な幾何を一貫したフィルタリングと蓄積により,これらの問題を緩和する専用フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-19T12:44:13Z) - OccVLA: Vision-Language-Action Model with Implicit 3D Occupancy Supervision [31.929268076595122]
OccVLAは、3D占有率表現を統一されたマルチモーダル推論プロセスに統合する新しいフレームワークである。
OccVLAは、軌跡計画のためのnuScenesベンチマークの最先端結果を達成し、3次元視覚的質問応答タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-09-06T03:47:21Z) - VLM-3D:End-to-End Vision-Language Models for Open-World 3D Perception [5.245213543721097]
本稿では,自律走行シナリオにおける3次元幾何学的認識を可能にする最初のエンドツーエンドフレームワークであるVLM-3Dを提案する。
VLM-3Dはローランド適応(LoRA)を導入し、最小計算オーバーヘッドのタスクにVLMを効率よく適応させる。
VLM-3Dにおける関節意味・幾何学的損失が12.8%の知覚精度向上につながることを示す。
論文 参考訳(メタデータ) (2025-08-12T16:25:27Z) - STAMICS: Splat, Track And Map with Integrated Consistency and Semantics for Dense RGB-D SLAM [8.208389210258593]
本稿では,3次元ガウス表現と意味情報を統合して局所化とマッピングの精度を向上させる新しい手法STAMICSを紹介する。
実験により、STAMICSはカメラのポーズ推定とマップの品質を著しく改善し、再現誤差を低減しつつ、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-03-27T12:10:51Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。