論文の概要: OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2507.14477v1
- Date: Sat, 19 Jul 2025 04:29:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.904551
- Title: OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition
- Title(参考訳): OptiCorNet:視覚的位置認識のためのシーケンスベースのコンテキスト相関の最適化
- Authors: Zhenyu Li, Tianyi Shang, Pengjie Xu, Ruirui Zhang, Fanchen Kong,
- Abstract要約: 本稿では,新しいシーケンスモデリングフレームワークOptiCorNetを提案する。
空間的特徴抽出と時間的差分を微分可能でエンドツーエンドのトレーニング可能なモジュールに統一する。
本手法は,季節的・視点的な変化に挑戦し,最先端のベースラインよりも優れる。
- 参考スコア(独自算出の注目度): 2.3093110834423616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Place Recognition (VPR) in dynamic and perceptually aliased environments remains a fundamental challenge for long-term localization. Existing deep learning-based solutions predominantly focus on single-frame embeddings, neglecting the temporal coherence present in image sequences. This paper presents OptiCorNet, a novel sequence modeling framework that unifies spatial feature extraction and temporal differencing into a differentiable, end-to-end trainable module. Central to our approach is a lightweight 1D convolutional encoder combined with a learnable differential temporal operator, termed Differentiable Sequence Delta (DSD), which jointly captures short-term spatial context and long-range temporal transitions. The DSD module models directional differences across sequences via a fixed-weight differencing kernel, followed by an LSTM-based refinement and optional residual projection, yielding compact, discriminative descriptors robust to viewpoint and appearance shifts. To further enhance inter-class separability, we incorporate a quadruplet loss that optimizes both positive alignment and multi-negative divergence within each batch. Unlike prior VPR methods that treat temporal aggregation as post-processing, OptiCorNet learns sequence-level embeddings directly, enabling more effective end-to-end place recognition. Comprehensive evaluations on multiple public benchmarks demonstrate that our approach outperforms state-of-the-art baselines under challenging seasonal and viewpoint variations.
- Abstract(参考訳): 視覚的位置認識 (VPR) は, 視覚的かつ知覚的に認識される環境において, 長期的局所化の根本的な課題である。
既存のディープラーニングベースのソリューションは、主に単一フレームの埋め込みに焦点を当て、画像シーケンスに存在する時間的コヒーレンスを無視している。
本稿では,空間的特徴抽出と時間差分を識別可能なエンドツーエンドのトレーニング可能なモジュールに統一する新しいシーケンスモデリングフレームワークOptiCorNetを提案する。
提案手法の中心となる1次元畳み込みエンコーダは,短時間の空間コンテキストと長距離の時間遷移を同時キャプチャする学習可能な微分時間演算子である微分系列デルタ (DSD) と組み合わせた軽量な1次元畳み込みエンコーダである。
DSDモジュールは、固定重差分カーネルを介してシーケンス間の方向性の違いをモデル化し、LSTMベースの洗練とオプションの残留射影により、視点や外観の変化に頑健なコンパクトで差別的な記述子が得られる。
クラス間セパビリティをさらに向上するため、各バッチ内での正のアライメントと多負のばらつきを最適化する四重項損失を取り入れた。
時間的集約を後処理として扱う従来のVPRメソッドとは異なり、OptiCorNetはシーケンスレベルの埋め込みを直接学習し、より効果的なエンドツーエンドの位置認識を可能にする。
複数の公開ベンチマークに対する総合的な評価は、我々のアプローチが季節や視点の変化に挑戦し、最先端のベースラインより優れていることを示している。
関連論文リスト
- DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - IPSeg: Image Posterior Mitigates Semantic Drift in Class-Incremental Segmentation [77.06177202334398]
CISSにおけるセマンティックドリフトとデグレード性能に寄与する2つの重要な課題を特定した。
まず、モデルの異なる部分が異なる漸進的な段階に最適化されるという、別々の最適化の問題を強調します。
第二に、不適切な擬似ラベルから生じる雑音のセマンティクスを同定し、その結果、準最適結果が得られる。
論文 参考訳(メタデータ) (2025-02-07T12:19:37Z) - Multi-Modality Driven LoRA for Adverse Condition Depth Estimation [61.525312117638116]
逆条件深さ推定のためのMulti-Modality Driven LoRA(MMD-LoRA)を提案する。
Prompt Driven Domain Alignment (PDDA) と Visual-Text Consistent Contrastive Learning (VTCCL) の2つのコアコンポーネントで構成されている。
nuScenesとOxford RobotCarデータセットの最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-28T14:23:58Z) - OED: Towards One-stage End-to-End Dynamic Scene Graph Generation [18.374354844446962]
ダイナミックシーングラフ生成(DSGG)は、ビデオの空間時間領域内の視覚的関係を特定することに焦点を当てている。
本稿では,DSGGパイプラインを合理化する一段階のエンドツーエンドフレームワークOEDを提案する。
このフレームワークは、設定された予測問題としてタスクを再構成し、ペアワイズ機能を活用してシーングラフ内の各対象物対を表現する。
論文 参考訳(メタデータ) (2024-05-27T08:18:41Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Long-Term Invariant Local Features via Implicit Cross-Domain
Correspondences [79.21515035128832]
我々は、様々なドメイン変更の下で、現在の最先端特徴抽出ネットワークの性能を徹底的に分析する。
我々は、新しいデータ中心方式、Implicit Cross-Domain Correspondences (iCDC)を提案する。
iCDCは複数のニューラル・ラジアンス・フィールドで同じ環境を表し、それぞれが個々の視覚領域の下にシーンを適合させる。
論文 参考訳(メタデータ) (2023-11-06T18:53:01Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - Local-Global Temporal Difference Learning for Satellite Video Super-Resolution [53.03380679343968]
本稿では,時間的差分を効果的かつ効果的な時間的補償に利用することを提案する。
フレーム内における局所的・大域的時間的情報を完全に活用するために,短期・長期的時間的相違を体系的にモデル化した。
5つの主流ビデオ衛星に対して行われた厳密な客観的および主観的評価は、我々の手法が最先端のアプローチに対して好適に機能することを実証している。
論文 参考訳(メタデータ) (2023-04-10T07:04:40Z) - RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional
Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。
RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。
モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文 参考訳(メタデータ) (2022-09-26T07:18:00Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Video Saliency Prediction Using Enhanced Spatiotemporal Alignment
Network [35.932447204088845]
ビデオ・サリエンシ予測に適した効果的な機能アライメント・ネットワーク(V)を開発した。
ネットワークは、隣接するフレームの特徴を粗い方法で参照フレームに整列させることを学ぶ。
提案したモデルはポスト処理なしでエンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-01-02T02:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。