論文の概要: Hybrid guided variational autoencoder for visual place recognition
- arxiv url: http://arxiv.org/abs/2601.09248v1
- Date: Wed, 14 Jan 2026 07:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.313257
- Title: Hybrid guided variational autoencoder for visual place recognition
- Title(参考訳): 視覚的位置認識のためのハイブリッド誘導変分オートエンコーダ
- Authors: Ni Wang, Zihan You, Emre Neftci, Thorben Schoepe,
- Abstract要約: 視覚的位置認識(VPR)は、これまで見られた場所に基づいて画像の位置を推定する。
この研究は、イベントベース視覚センサとイベントベース誘導変分オートエンコーダ(VAE)を組み合わせることで、ロボット工学におけるこれらの制限を克服する。
VAEは、新しい屋内VPRデータセットの16箇所の視覚的特徴を、他の最先端のアプローチに匹敵する分類性能で切り離すことに成功しました。
- 参考スコア(独自算出の注目度): 6.216969459864948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous agents such as cars, robots and drones need to precisely localize themselves in diverse environments, including in GPS-denied indoor environments. One approach for precise localization is visual place recognition (VPR), which estimates the place of an image based on previously seen places. State-of-the-art VPR models require high amounts of memory, making them unwieldy for mobile deployment, while more compact models lack robustness and generalization capabilities. This work overcomes these limitations for robotics using a combination of event-based vision sensors and an event-based novel guided variational autoencoder (VAE). The encoder part of our model is based on a spiking neural network model which is compatible with power-efficient low latency neuromorphic hardware. The VAE successfully disentangles the visual features of 16 distinct places in our new indoor VPR dataset with a classification performance comparable to other state-of-the-art approaches while, showing robust performance also under various illumination conditions. When tested with novel visual inputs from unknown scenes, our model can distinguish between these places, which demonstrates a high generalization capability by learning the essential features of location. Our compact and robust guided VAE with generalization capabilities poses a promising model for visual place recognition that can significantly enhance mobile robot navigation in known and unknown indoor environments.
- Abstract(参考訳): 自動車、ロボット、ドローンなどの自律型エージェントは、GPSを内蔵した屋内環境を含む様々な環境において、正確に自己ローカライズする必要がある。
正確なローカライズのための1つのアプローチは視覚的位置認識(VPR)であり、これまで見られた場所に基づいて画像の位置を推定する。
最先端のVPRモデルは大量のメモリを必要とするため、モバイルデプロイメントには適さないが、よりコンパクトなモデルは堅牢性と一般化能力に欠ける。
この研究は、イベントベースの視覚センサとイベントベースの新しい可変オートエンコーダ(VAE)を組み合わせることで、ロボット工学におけるこれらの制限を克服する。
我々のモデルのエンコーダ部分は、電力効率の低い低レイテンシニューロモルフィックハードウェアと互換性のあるスパイクニューラルネットワークモデルに基づいている。
VAEは、新しい屋内VPRデータセットの16箇所の視覚的特徴を、他の最先端のアプローチに匹敵する分類性能で切り離し、様々な照明条件下での堅牢な性能を示した。
未知のシーンからの新たな視覚的入力でテストすると、これらの場所を区別することができ、位置の本質的な特徴を学習することで、高い一般化能力を示す。
一般化機能を備えたコンパクトでロバストなVAEは、未知の屋内環境における移動ロボットのナビゲーションを大幅に向上させる、視覚的位置認識のための有望なモデルとなる。
関連論文リスト
- How do Foundation Models Compare to Skeleton-Based Approaches for Gesture Recognition in Human-Robot Interaction? [9.094835948226063]
ジェスチャーは、アジャイル生産のような騒々しい環境で、非言語的な人間とロボットのコミュニケーションを可能にする。
従来のディープラーニングに基づくジェスチャー認識は、画像、ビデオ、骨格ポーズ推定を入力として使用するタスク固有のアーキテクチャに依存している。
Vision Foundation Models (VFMs) と Vision Language Models (VLMs) は、その強力な一般化能力によって、システムの複雑さを減らす可能性がある。
本研究では、V-JEPA(最先端VFM)、Gemini Flash 2.0(マルチモーダルVLM)、HD-GCN(トップパフォーマンススケルトンベース)を比較し、ダイナミックでフルボディのジェスチャー認識にそのようなモデルを適用することを検討する。
論文 参考訳(メタデータ) (2025-06-25T19:36:45Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - DAMamba: Vision State Space Model with Dynamic Adaptive Scan [51.81060691414399]
状態空間モデル(SSM)は近年、コンピュータビジョンにおいて大きな注目を集めている。
スキャン順序と領域を適応的に割り当てるデータ駆動型動的適応スキャン(DAS)を提案する。
DASをベースとしたビジョンバックボーンDAMambaの提案は,現在のビジョンタスクにおけるMambaモデルよりもはるかに優れている。
論文 参考訳(メタデータ) (2025-02-18T08:12:47Z) - AdaCropFollow: Self-Supervised Online Adaptation for Visual Under-Canopy Navigation [31.214318150001947]
アンダーキャノピー農業ロボットは、精密なモニタリング、スプレー、雑草、植物操作などの様々な応用を可能にする。
本稿では,視覚的基礎モデル,幾何学的事前,擬似ラベリングを用いて意味キーポイント表現を適応するための自己教師付きオンライン適応手法を提案する。
これにより、人間による介入を必要とせずに、畑や作物をまたがるアンダーキャノピーロボットの完全な自律的な行追尾が可能になる。
論文 参考訳(メタデータ) (2024-10-16T09:52:38Z) - CViT: Continuous Vision Transformer for Operator Learning [24.1795082775376]
連続ビジョントランスフォーマー(Continuous Vision Transformer、CViT)は、コンピュータビジョンの進歩を活用して複雑な物理システムを学ぶ際の課題に対処する、新しい神経オペレーターアーキテクチャである。
CViTは、ビジョントランスフォーマーエンコーダ、新しいグリッドベースの座標埋め込み、マルチスケール依存関係を効果的にキャプチャするクエリワイドのクロスアテンション機構を組み合わせたものである。
本研究では, 流体力学, 気候モデル, 反応拡散過程を含む多種多様な偏微分方程式(PDE)システムにおけるCViTの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-22T21:13:23Z) - BEHAVIOR Vision Suite: Customizable Dataset Generation via Simulation [57.40024206484446]
我々は、コンピュータビジョンモデルの体系的評価のために、完全にカスタマイズされた合成データを生成するためのツールと資産のセットであるBEHAVIOR Vision Suite(BVS)を紹介する。
BVSはシーンレベルで多数の調整可能なパラメータをサポートする。
アプリケーションシナリオを3つ紹介する。
論文 参考訳(メタデータ) (2024-05-15T17:57:56Z) - OverlapMamba: Novel Shift State Space Model for LiDAR-based Place Recognition [10.39935021754015]
位置認識のための新しいネットワークであるOverlapMambaを開発した。
本手法は,以前に訪れた場所を異なる方向から横断する場合でも,ループの閉鎖を効果的に検出する。
生のレンジビューの入力に基づいて、典型的なLiDARと複数ビューの組み合わせ法を時間的複雑さと速度で上回っている。
論文 参考訳(メタデータ) (2024-05-13T17:46:35Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - Multimodal Adaptive Fusion of Face and Gait Features using Keyless
attention based Deep Neural Networks for Human Identification [67.64124512185087]
歩行のような軟式生体認証は、人物認識や再識別といった監視作業において顔に広く使われている。
本稿では,キーレス注意深層ニューラルネットワークを活用することで,歩行と顔のバイオメトリック・キューを動的に組み込むための適応型マルチバイオメトリック・フュージョン戦略を提案する。
論文 参考訳(メタデータ) (2023-03-24T05:28:35Z) - Deep Learning Computer Vision Algorithms for Real-time UAVs On-board
Camera Image Processing [77.34726150561087]
本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。
すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。
論文 参考訳(メタデータ) (2022-11-02T11:10:42Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。