論文の概要: PEOD: A Pixel-Aligned Event-RGB Benchmark for Object Detection under Challenging Conditions
- arxiv url: http://arxiv.org/abs/2511.08140v1
- Date: Wed, 12 Nov 2025 01:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.662899
- Title: PEOD: A Pixel-Aligned Event-RGB Benchmark for Object Detection under Challenging Conditions
- Title(参考訳): PEOD: 整合条件下でのオブジェクト検出のためのPixel-Aligned Event-RGBベンチマーク
- Authors: Luoping Cui, Hanqing Liu, Mingjie Liu, Endian Lin, Donghong Jiang, Yuhao Wang, Chuang Zhu,
- Abstract要約: PEODは,課題条件下でのオブジェクト検出のための,最初の大規模,画素対応,高解像度のEvent-RGBデータセットである。
PEODには130以上の時間的整列シーケンスと340kの手動バウンディングボックスがあり、その57%は低照度、過剰露光、高速な動きで取得されている。
PEOD上の3つの入力構成(Event-based, RGB-based, Event-RGB fusion)にまたがる14の手法をベンチマークした。
- 参考スコア(独自算出の注目度): 11.109860105079383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust object detection for challenging scenarios increasingly relies on event cameras, yet existing Event-RGB datasets remain constrained by sparse coverage of extreme conditions and low spatial resolution (<= 640 x 480), which prevents comprehensive evaluation of detectors under challenging scenarios. To address these limitations, we propose PEOD, the first large-scale, pixel-aligned and high-resolution (1280 x 720) Event-RGB dataset for object detection under challenge conditions. PEOD contains 130+ spatiotemporal-aligned sequences and 340k manual bounding boxes, with 57% of data captured under low-light, overexposure, and high-speed motion. Furthermore, we benchmark 14 methods across three input configurations (Event-based, RGB-based, and Event-RGB fusion) on PEOD. On the full test set and normal subset, fusion-based models achieve the excellent performance. However, in illumination challenge subset, the top event-based model outperforms all fusion models, while fusion models still outperform their RGB-based counterparts, indicating limits of existing fusion methods when the frame modality is severely degraded. PEOD establishes a realistic, high-quality benchmark for multimodal perception and facilitates future research.
- Abstract(参考訳): 難解なシナリオに対するロバストなオブジェクト検出は、イベントカメラにますます依存しているが、既存のEvent-RGBデータセットは、極端な条件と低い空間解像度(=640 x 480)のスパースカバレッジによって制約され、難解なシナリオ下での検出の包括的な評価を防止する。
これらの制約に対処するために,PEODを提案する。PEODは,課題条件下でのオブジェクト検出のための,最初の大規模かつ画素整列かつ高解像度(1280 x 720)イベントRGBデータセットである。
PEODには130以上の時空間整列シーケンスと340kの手動バウンディングボックスがあり、その57%は低照度、過剰露光、高速な動きで取得されている。
さらに,PEOD上の3つの入力構成(Event-based, RGB-based, Event-RGB fusion)に対して14の手法をベンチマークした。
完全なテストセットと通常のサブセットでは、融合ベースのモデルは優れたパフォーマンスを達成する。
しかしながら、照明チャレンジサブセットでは、上位イベントベースモデルはすべての融合モデルより優れ、一方、融合モデルはRGBベースのモデルよりも優れており、フレームのモダリティが著しく低下している場合の既存の融合メソッドの限界を示している。
PEODは、マルチモーダル知覚のための現実的で高品質なベンチマークを確立し、将来の研究を促進する。
関連論文リスト
- Fusion Meets Diverse Conditions: A High-diversity Benchmark and Baseline for UAV-based Multimodal Object Detection with Condition Cues [28.341059391069447]
高度80mから300mの様々なシナリオをカバーする高多様性データセットATR-UMODを導入する。
各RGB-IRイメージペアには6つの条件属性がアノテートされ、貴重な高レベルなコンテキスト情報を提供する。
本稿では,マルチモーダルコントリビューションを適応的に再割り当てする新しいPCDFを提案する。
論文 参考訳(メタデータ) (2025-10-15T14:50:37Z) - Unified Unsupervised Anomaly Detection via Matching Cost Filtering [113.43366521994396]
教師なし異常検出(UAD)は、通常のトレーニングデータのみを用いて画像レベルの異常と画素レベルの異常を識別することを目的としている。
UADモデルの異常コスト量を補正するための汎用的なポストホック精錬フレームワークであるUnified Cost Filtering (UCF) を提案する。
論文 参考訳(メタデータ) (2025-10-03T03:28:18Z) - HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Leveraging RGB Images for Pre-Training of Event-Based Hand Pose Estimation [64.8814078041756]
RPEPはラベル付きRGB画像と未ラベルのイベントデータを用いたイベントベースの3次元ポーズ推定のための最初の事前学習手法である。
EvRealHandsの24%の改善を達成し、実イベントデータにおける最先端の手法を著しく上回る結果となった。
論文 参考訳(メタデータ) (2025-09-21T07:07:49Z) - Event-RGB Fusion for Spacecraft Pose Estimation Under Harsh Lighting [12.693029310111143]
宇宙船のポーズ推定は、ランデブー、ドッキング、軌道上でのサービスなど、自律的な宇宙での運用に不可欠である。
視覚に基づくポーズ推定法は、通常RGBイメージングセンサーを使用するが、厳しい照明条件に悩まされている。
本研究は,RGBとイベントセンサを組み合わせたセンサ融合手法を提案する。
論文 参考訳(メタデータ) (2025-07-08T06:11:42Z) - Frequency-Adaptive Low-Latency Object Detection Using Events and Frames [23.786369609995013]
オブジェクト検出のためのFusing EventsとRGBイメージは、悪環境におけるEvent Cameraの堅牢性を活用する。
2つの重要なミスマッチ:低遅延イベント textitvs.high-latency RGB frame と時間的にスパースなラベル。
textbfFrequency-textbfAdaptive Low-Latency textbfObject textbfDetector (FAOD)を提案する。
論文 参考訳(メタデータ) (2024-12-05T13:23:06Z) - The Solution for the GAIIC2024 RGB-TIR object detection Challenge [5.625794757504552]
RGB-TIRオブジェクト検出は、RGBとTIRの両方の画像を、検出中に補完情報として利用する。
提案手法はAとBのベンチマークでそれぞれ0.516と0.543のmAPスコアを得た。
論文 参考訳(メタデータ) (2024-07-04T12:08:36Z) - EvPlug: Learn a Plug-and-Play Module for Event and Image Fusion [55.367269556557645]
EvPlugは、既存のRGBベースのモデルの監視から、プラグアンドプレイイベントとイメージ融合モジュールを学習する。
オブジェクト検出,セマンティックセグメンテーション,3Dハンドポーズ推定などの視覚タスクにおいて,EvPlugの優位性を示す。
論文 参考訳(メタデータ) (2023-12-28T10:05:13Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。