論文の概要: Test-Time Adaptation for Height Completion via Self-Supervised ViT Features and Monocular Foundation Models
- arxiv url: http://arxiv.org/abs/2604.02009v1
- Date: Thu, 02 Apr 2026 13:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.804419
- Title: Test-Time Adaptation for Height Completion via Self-Supervised ViT Features and Monocular Foundation Models
- Title(参考訳): 自己監督型ViT特徴量と単分子ファンデーションモデルによるハイトコンプリートに対するテスト時間適応
- Authors: Osher Rafaeli, Tal Svoray, Ariel Nahlieli,
- Abstract要約: Prior2DSMは、テスト時に完全に動作するメトリックDSM補完のためのトレーニングフリーフレームワークである。
構造的忠実性を維持しながら復元誤差を低減し、RMSEを最大46%削減する。
- 参考スコア(独自算出の注目度): 1.433758865948252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate digital surface models (DSMs) are essential for many geospatial applications, including urban monitoring, environmental analyses, infrastructure management, and change detection. However, large-scale DSMs frequently contain incomplete or outdated regions due to acquisition limitations, reconstruction artifacts, or changes in the built environment. Traditional height completion approaches primarily rely on spatial interpolation or which assume spatial continuity and therefore fail when objects are missing. Recent learning-based approaches improve reconstruction quality but typically require supervised training on sensor-specific datasets, limiting their generalization across domains and sensing conditions. We propose Prior2DSM, a training-free framework for metric DSM completion that operates entirely at test time by leveraging foundation models. Unlike previous height completion approaches that require task-specific training, the proposed method combines self-supervised Vision Transformer (ViT) features from DINOv3 with monocular depth foundation models to propagate metric information from incomplete height priors through semantic feature-space correspondence. Test-time adaptation (TTA) is performed using parameter-efficient low-rank adaptation (LoRA) together with a lightweight multilayer perceptron (MLP), which predicts spatially varying scale and shift parameters to convert relative depth estimates into metric heights. Experiments demonstrate consistent improvements over interpolation based methods, prior-based rescaling height approaches, and state-of-the-art monocular depth estimation models. Prior2DSM reduces reconstruction error while preserving structural fidelity, achieving up to a 46% reduction in RMSE compared to linear fitting of MDE, and further enables DSM updating and coupled RGB-DSM generation.
- Abstract(参考訳): 正確なデジタル表面モデル(DSM)は、都市モニタリング、環境分析、インフラ管理、変化検出など、多くの地理空間的応用に不可欠である。
しかし、大規模なDSMは、取得制限、再構築アーティファクト、あるいはビルド環境の変化のために、不完全または時代遅れの領域を頻繁に含んでいる。
伝統的な高さ補完アプローチは、主に空間補間に依存し、空間的連続性を仮定し、オブジェクトが欠落しているときに失敗する。
近年の学習ベースのアプローチは、再構築品質を改善するが、通常、センサー固有のデータセットの教師付きトレーニングを必要とし、ドメイン間の一般化と感知条件を制限している。
そこで本研究では,基礎モデルを活用することで,テスト時に完全に動作するメトリックDSM補完のためのトレーニングフリーフレームワークであるPreside2DSMを提案する。
タスク固有のトレーニングを必要とする従来のハイトコンプリートアプローチとは異なり、提案手法は、DINOv3からの自己教師付きビジョントランスフォーマー(ViT)特徴と単眼深度基礎モデルを組み合わせることで、意味的特徴空間対応を通じて、不完全なハイト前のメトリック情報を伝達する。
パラメータ効率の低いローランク適応(LoRA)と軽量多層パーセプトロン(MLP)を用いてテスト時間適応(TTA)を行い、空間的に異なるスケールとシフトパラメータを予測し、相対深度推定値をメートル高に変換する。
実験では、補間に基づく手法、先行した再スケーリング高さアプローチ、最先端の単分子深度推定モデルに対する一貫した改善が示されている。
Prior2DSMは、MDEのリニアフィッティングと比較してRMSEの最大46%の低減を実現し、DSM更新とRGB-DSM生成を可能にする。
関連論文リスト
- VAN-AD: Visual Masked Autoencoder with Normalizing Flow For Time Series Anomaly Detection [17.972690703544764]
IoT対応サービスシステムの信頼性とセキュリティを維持するためには,時系列異常検出(TSAD)が不可欠である。
本稿では,大規模視覚モデルのTSADへの適用性について検討する。
TSADのための新しいMAEベースのフレームワークであるVAN-ADを提案する。
論文 参考訳(メタデータ) (2026-03-27T08:48:59Z) - PDE foundation model-accelerated inverse estimation of system parameters in inertial confinement fusion [36.885866084809926]
Inertial Confinement fusion (ICF)における逆問題について検討する:マルチモーダル・スナップショット式観測(出力)からシステムパラメータ(インプット)を推定する。
我々はPDEファンデーションモデルを微調整し、ハイパースペクトル画像と回帰システムのパラメータを共同で再構築する軽量なタスク固有ヘッドを訓練する。
実験では、トレーニングデータの量が増加するにつれて、復元と回帰の両方の損失が一貫した改善を示す。
論文 参考訳(メタデータ) (2026-03-04T21:07:43Z) - MEMTS: Internalizing Domain Knowledge via Parameterized Memory for Retrieval-Free Domain Adaptation of Time Series Foundation Models [51.506429027626005]
Memory for Time Series (MEMTS) は、時系列予測における検索不要領域適応のための軽量かつプラグアンドプレイ方式である。
MEMTSの鍵となるコンポーネントは知識永続化モジュール(KPM)であり、ドメイン固有の時間力学を内部化する。
このパラダイムシフトにより、MEMTSは定数時間推論とニアゼロレイテンシによる正確なドメイン適応を実現することができる。
論文 参考訳(メタデータ) (2026-02-14T14:00:06Z) - Beyond Weight Adaptation: Feature-Space Domain Injection for Cross-Modal Ship Re-Identification [3.6907522136316975]
CMS Re-ID(Cross-Modality Ship Re-Identification)は、全天候の海上目標追跡を実現するために重要である。
モダリティギャップのブリッジ化におけるビジョン・ファンデーション・モデル(VFM)の可能性を探る。
ドメイン表現注入(Domain Representation Injection, DRI)と呼ばれる新しいPEFT戦略を提案する。
論文 参考訳(メタデータ) (2025-12-24T02:30:23Z) - Enhancing Generalization of Depth Estimation Foundation Model via Weakly-Supervised Adaptation with Regularization [21.788680301776207]
WeSTAR(Weakly supervised Self-Training Adaptation with Regularization)を提案する。
まず、構造的自己超越の主源として、密集した自己学習目標を採用する。
さらにロバスト性を改善するために,意味論的に認識された階層的正規化を導入する。
論文 参考訳(メタデータ) (2025-11-18T08:16:16Z) - Survey on Monocular Metric Depth Estimation [2.436681150766912]
単分子距離推定(MMDE)は絶対スケールの深度マップを生成し、幾何整合性を確保する。
本調査では,幾何に基づく手法から最先端の深層モデルまで,MMDEの進化を概観する。
方法論の進歩は、領域の一般化、境界保存、および合成データと実データの統合を網羅して分析される。
論文 参考訳(メタデータ) (2025-01-21T02:51:10Z) - Relative Pose Estimation through Affine Corrections of Monocular Depth Priors [69.59216331861437]
本研究では,独立なアフィン(スケールとシフト)のあいまいさを明示的に考慮した相対ポーズ推定のための3つの解法を開発した。
提案する解法と古典的点ベース解法とエピポーラ制約を組み合わせたハイブリッド推定パイプラインを提案する。
論文 参考訳(メタデータ) (2025-01-09T18:58:30Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。