論文の概要: EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2602.12919v1
- Date: Fri, 13 Feb 2026 13:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.96493
- Title: EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition
- Title(参考訳): EPRBench: イベントストリームに基づく視覚的位置認識のための高品質ベンチマークデータセット
- Authors: Xiao Wang, Xingxing Xiong, Jinfeng Gao, Xufeng Lou, Bo Jiang, Si-bao Chen, Yaowei Wang, Yonghong Tian,
- Abstract要約: イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
- 参考スコア(独自算出の注目度): 54.55914886780534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event stream-based Visual Place Recognition (VPR) is an emerging research direction that offers a compelling solution to the instability of conventional visible-light cameras under challenging conditions such as low illumination, overexposure, and high-speed motion. Recognizing the current scarcity of dedicated datasets in this domain, we introduce EPRBench, a high-quality benchmark specifically designed for event stream-based VPR. EPRBench comprises 10K event sequences and 65K event frames, collected using both handheld and vehicle-mounted setups to comprehensively capture real-world challenges across diverse viewpoints, weather conditions, and lighting scenarios. To support semantic-aware and language-integrated VPR research, we provide LLM-generated scene descriptions, subsequently refined through human annotation, establishing a solid foundation for integrating LLMs into event-based perception pipelines. To facilitate systematic evaluation, we implement and benchmark 15 state-of-the-art VPR algorithms on EPRBench, offering a strong baseline for future algorithmic comparisons. Furthermore, we propose a novel multi-modal fusion paradigm for VPR: leveraging LLMs to generate textual scene descriptions from raw event streams, which then guide spatially attentive token selection, cross-modal feature fusion, and multi-scale representation learning. This framework not only achieves highly accurate place recognition but also produces interpretable reasoning processes alongside its predictions, significantly enhancing model transparency and explainability. The dataset and source code will be released on https://github.com/Event-AHU/Neuromorphic_ReID
- Abstract(参考訳): イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
この領域で専用のデータセットが不足していることを認識し、イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介します。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
意味認識と言語統合型VPR研究を支援するため,LLMの生成したシーン記述を人間のアノテーションによって洗練し,LLMをイベントベースの知覚パイプラインに統合する基盤を確立する。
システム評価を容易にするため,EPRBench上で15の最先端VPRアルゴリズムを実装し,ベンチマークを行った。
さらに,VPRのための新しいマルチモーダル融合パラダイムを提案する。LLMを利用して生イベントストリームからテキストシーン記述を生成し,空間的に注意するトークン選択,クロスモーダル特徴融合,マルチスケール表現学習をガイドする。
このフレームワークは、高度に正確な位置認識を実現するだけでなく、予測と共に解釈可能な推論プロセスを生成し、モデルの透明性と説明可能性を大幅に向上させる。
データセットとソースコードはhttps://github.com/Event-AHU/Neuromorphic_ReIDで公開される。
関連論文リスト
- BREATH-VL: Vision-Language-Guided 6-DoF Bronchoscopy Localization via Semantic-Geometric Fusion [7.382475458362566]
BREATH-VLは,視覚言語モデルからのセマンティックキューと,登録手法からの幾何情報を統合し,正確な6-DoFポーズ推定を行うハイブリッドフレームワークである。
これに基づいて、BREATH-VLは、最先端の視覚のみのローカライゼーション法を精度と一般化の両方で上回り、翻訳誤差を最良性能のベースラインと比較して25.5%削減する。
論文 参考訳(メタデータ) (2026-01-07T09:00:52Z) - Reconstruction as a Bridge for Event-Based Visual Question Answering [50.47820990163094]
本稿では,簡単なフレームベース再構成・トークン化(FRT)法と適応再構成・トークン化(ART)法を提案する。
堅牢な評価のために、22の公開データセットから1000のイベント-Q&Aペアからなる、イベントベースのMLLMの最初の目的、実世界のベンチマークであるEvQAを紹介する。
提案手法は,EvQA上での最先端性能を実証し,イベントベースビジョンにおけるMLLMの意義を明らかにする。
論文 参考訳(メタデータ) (2025-12-12T12:16:45Z) - LET-US: Long Event-Text Understanding of Scenes [23.376693904132786]
イベントカメラは、マイクロ秒レベルの時間分解能を備えたスパースで非同期なデータとしてイベントストリームを出力する。
長いイベントストリーム・テキスト理解のためのフレームワークであるLET-USを紹介する。
適応圧縮機構を用いて、重要な視覚的詳細を保存しながら入力イベントの量を削減する。
論文 参考訳(メタデータ) (2025-08-10T16:02:41Z) - ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning [57.767536707234036]
本稿では,イベントストリームシーンのテキスト認識フレームワークESTR-CoTを提案する。
具体的には、まず視覚エンコーダEVA-CLIPを採用し、入力イベントストリームをトークンに変換し、Llamaトークン化器を使用して与えられた生成プロンプトをエンコードする。
Qフォーマーは、事前訓練された大言語モデルVicuna-7Bにビジョントークンを整列させ、応答とチェーン・オブ・シークレット(CoT)推論プロセスの両方を同時に出力する。
論文 参考訳(メタデータ) (2025-07-02T23:41:31Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Low-Light Image Enhancement via Generative Perceptual Priors [75.01646333310073]
視覚言語モデル(VLM)を用いた新しいtextbfLLIE フレームワークを提案する。
まず、LL画像の複数の視覚特性を評価するためにVLMを誘導するパイプラインを提案し、その評価を定量化し、グローバルおよびローカルな知覚的先行情報を出力する。
LLIEを有効活用するために,これらの生成的知覚前駆体を組み込むため,拡散過程にトランスフォーマーベースのバックボーンを導入し,グローバルおよびローカルな知覚前駆体によってガイドされる新しい層正規化(textittextbfLPP-Attn)を開発する。
論文 参考訳(メタデータ) (2024-12-30T12:51:52Z) - Event Voxel Set Transformer for Spatiotemporal Representation Learning on Event Streams [19.957857885844838]
イベントカメラは、シーンをスパースで非同期なイベントストリームとして記録するニューロモルフィックな視覚センサである。
本稿では,イベントストリーム上での効率的な表現学習のためのイベントVoxel Set Transformer (EVSTr) という注目度モデルを提案する。
実験によると、EVSTrは低モデルの複雑さを維持しながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-07T12:48:02Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。