論文の概要: FlatVPR: Plug-and-play Geo-linear Residual Adapter for Geometric Rectification of Foundation Model Feature Manifolds
- arxiv url: http://arxiv.org/abs/2606.01734v1
- Date: Mon, 01 Jun 2026 05:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.402961
- Title: FlatVPR: Plug-and-play Geo-linear Residual Adapter for Geometric Rectification of Foundation Model Feature Manifolds
- Title(参考訳): FlatVPR:基礎モデル特徴多様体の幾何学的整形のためのプラグアンドプレイジオリニア残差アダプタ
- Authors: Rai Hisada, Kanji Tanaka,
- Abstract要約: FlatVPR'は、視覚的位置認識における地図軽量性と位置決め精度のトレードオフを橋渡しする。
本手法は, 数学的に接地したプルバック平坦性損失を用いて, 多様体曲率を明示的に抑制する。
NCLTデータセットの実験では、アダプタの適用によってパフォーマンスが大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 0.7734726150561086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes ``FlatVPR,'' a novel geometric rectification paradigm that effectively bridges the trade-off between map lightweightness and localization accuracy in visual place recognition (VPR) by enforcing a feature manifold structure where any descriptor between two adjacent anchors $\mathbf{z}_A$ and $\mathbf{z}_B$ can be accurately reconstructed via linear interpolation $\hat{\mathbf{z}}_{pseudo} = (1-t)\mathbf{z}_A + t\mathbf{z}_B$, where $t \in [0,1]$ denotes the relative position. While state-of-the-art foundation models such as DINOv2-ViT-S/14 provide robust semantic features, their latent manifolds exhibit prominent curvature, projecting uniform linear motion in physical space onto highly non-linear trajectories in the feature space, which hinders reliable reconstruction under sparse anchor conditions. To enable the aforementioned interpolation-based reconstruction, we introduce a residual transformation $\hat{\mathbf{z}} = \mathbf{z} + \text{Res}(\mathbf{z})$ to the raw foundation features $\mathbf{z}$, where $\text{Res}(\cdot)$ represents a learnable adapter. Our method explicitly suppresses manifold curvature using a mathematically grounded Pullback Flatness Loss that minimizes the deviation of intermediate features from the linear segment connecting adjacent anchors, thereby minimizing the intrinsic curvature of the manifold. Through this spatial flattening, map construction is formulated within an Expectation-Maximization (EM) framework, decoupled into a continuous M-step for manifold adaptation and a conceptual E-step for optimal anchor selection guidelines. Experiments on the NCLT dataset demonstrate that the application of our adapter leads to significant performance improvements even under extremely sparse anchor conditions with 100m intervals and extreme seasonal changes.
- Abstract(参考訳): 本稿では,2つの隣接するアンカー間の記述子$\mathbf{z}_A$と$\mathbf{z}_B$を線形補間$\hat{\mathbf{z}}_{pseudo} = (1-t)\mathbf{z}_A + t\mathbf{z}_B$, $t \in [0,1]$が相対的な位置を示すような特徴多様体構造を強制することにより,地図の軽量性と視覚的位置認識(VPR)における局所化精度のトレードオフを効果的に橋渡しする新しい幾何的補正パラダイム「FlatVPR」を提案する。
DINOv2-ViT-S/14のような最先端の基盤モデルは堅牢な意味的特徴を提供するが、それらの潜在多様体は顕著な曲率を示し、物理空間の均一な線形運動を特徴空間の高非線形軌道に投影し、スパースアンカー条件下での信頼性の高い再構成を妨げる。
上記の補間に基づく再構成を可能にするために、残差変換 $\hat{\mathbf{z}} = \mathbf{z} + \text{Res}(\mathbf{z})$ を原機能 $\mathbf{z}$ に導入する。
本手法は,隣接するアンカーを連結する線形セグメントからの中間特徴量の偏差を最小限に抑え,多様体の内在曲率を最小化する,数学的に接地したプルバック平坦度損失を用いた多様体曲率を明示的に抑制する。
この空間平坦化を通じて、写像構成は期待最大化(EM)フレームワーク内で定式化され、多様体適応のための連続的なMステップと最適なアンカー選択ガイドラインのための概念的なEステップに分解される。
NCLTデータセットを用いた実験により,100m間隔の極端に狭いアンカー条件下においても,アダプタの適用により大幅な性能向上が得られた。
関連論文リスト
- Model Merging on Loss Landscape: A Geometry Perspective [2.2624434825206543]
エピマー(英: EpiMer)は、リーマン多様体上のフレシェ平均を解くためにモデルが合併するフレームワークである。
我々の理論的解析は、マージ誤差を部分空間フレシェ分散と残留エネルギーに分解する。
8つのイメージ分類タスクで微調整されたCLIP-ViTモデルを組み合わせることで、Epistemic Mergingは、マッチしたランクで3つのCLIP-ViTバックボーンのベースラインを厳密に上回る。
論文 参考訳(メタデータ) (2026-05-26T08:33:30Z) - Extra-Merge: Tracing the Rank-1 Subspace of Model Merging in Language Model Pre-Training [56.323119575322146]
Extra-Mergeは、GPT-2およびLLaMAファミリーにわたる実験において、標準のマージベースラインを一貫して上回っている。
Pythia-12B下流のタスクに対して一貫したゼロショット精度のゲインを与え、Muon citepjordan2024muonに効果的に一般化する。
論文 参考訳(メタデータ) (2026-05-26T02:48:34Z) - Intrinsic Wasserstein Rates for Score-Based Generative Models on Smooth Manifolds [61.14405512940818]
Scoreベースの生成モデルは高次元空間で訓練されていることを示す。
有限固有アンカーとガウス・ニュートンによる最も近い射影座標のReLU実装を用いる。
論文 参考訳(メタデータ) (2026-05-15T10:20:05Z) - Towards Scalable Persistence-Based Topological Optimization [44.16669776030478]
永続性に基づく位相最適化は、点クラウド $X の部分集合 mathbbRd$ を $L(X) = ell(mathrmDgm(X))$ という形の目的を最小化することによって変形する。
実際、最適化は2つの結合した問題によって制限される: 永続ホモロジーは典型的にはサブサンプル上で計算され、結果として生じる位相勾配は非常にスパースであり、非ゼロ更新を受けるアンカーポイントはわずかである。
論文 参考訳(メタデータ) (2026-05-09T15:47:20Z) - Local LMO: Constrained Gradient Optimization via a Local Linear Minimization Oracle [51.714334316332476]
Local Lは制約付き最適化のための新しいプロジェクションフリー型である。
局所LMOはGD(Gradient Descent)のオラクルと見なされる。
論文 参考訳(メタデータ) (2026-05-09T10:03:24Z) - Learning Theory of Transformers: Local-to-Global Approximation via Softmax Partition of Unity [5.37133760455631]
本稿では,コンパクトユークリッド領域上の回帰タスクに対するトランスフォーマーネットワークの学習理論について検討する。
本稿では,対象関数の局所近似を構築し,それらを大域的近似に集約するトランスフォーマーの構成的近似フレームワークを提案する。
2つのエンコーダブロックと標準単層フィードフォワードネットワークを備えた高密度トランスフォーマーは、$$$Hlder連続関数に対して均一な$varepsilon$-approximation誤差を実現できることを示す。
論文 参考訳(メタデータ) (2026-05-09T09:02:37Z) - Reflected diffusion models adapt to low-dimensional data [1.4273866043218157]
本稿では、超キューブ$[0,1]D$が$d$次元線型部分空間上でサポートされている場合の反射拡散モデルの統計的解析を行う。
簡単に実装可能な遷移密度の無限級数展開を利用することで、スコア関数とその近似をスパースReLUネットワークで束縛する解析ツールを開発する。
論文 参考訳(メタデータ) (2026-03-25T16:37:33Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。