論文の概要: Ev-Layout: A Large-scale Event-based Multi-modal Dataset for Indoor Layout Estimation and Tracking
- arxiv url: http://arxiv.org/abs/2503.08370v1
- Date: Tue, 11 Mar 2025 12:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 19:17:39.626117
- Title: Ev-Layout: A Large-scale Event-based Multi-modal Dataset for Indoor Layout Estimation and Tracking
- Title(参考訳): Ev-Layout:屋内レイアウト推定と追跡のための大規模イベントベースマルチモーダルデータセット
- Authors: Xucheng Guo, Yiran Shen, Xiaofang Xiao, Yuanfeng Zhou, Lin Wang,
- Abstract要約: 本稿では,屋内レイアウト推定と追跡を目的とした大規模イベントベースマルチモーダルデータセットであるEv-を提案する。
データセットは、771.3K RGBイメージと100億のイベントデータポイントを含む2.5Kシーケンスで構成されている。
- 参考スコア(独自算出の注目度): 9.808718117070102
- License:
- Abstract: This paper presents Ev-Layout, a novel large-scale event-based multi-modal dataset designed for indoor layout estimation and tracking. Ev-Layout makes key contributions to the community by: Utilizing a hybrid data collection platform (with a head-mounted display and VR interface) that integrates both RGB and bio-inspired event cameras to capture indoor layouts in motion. Incorporating time-series data from inertial measurement units (IMUs) and ambient lighting conditions recorded during data collection to highlight the potential impact of motion speed and lighting on layout estimation accuracy. The dataset consists of 2.5K sequences, including over 771.3K RGB images and 10 billion event data points. Of these, 39K images are annotated with indoor layouts, enabling research in both event-based and video-based indoor layout estimation. Based on the dataset, we propose an event-based layout estimation pipeline with a novel event-temporal distribution feature module to effectively aggregate the spatio-temporal information from events. Additionally, we introduce a spatio-temporal feature fusion module that can be easily integrated into a transformer module for fusion purposes. Finally, we conduct benchmarking and extensive experiments on the Ev-Layout dataset, demonstrating that our approach significantly improves the accuracy of dynamic indoor layout estimation compared to existing event-based methods.
- Abstract(参考訳): 本稿では,屋内レイアウト推定と追跡を目的とした大規模イベントベースマルチモーダルデータセットであるEv-Layoutを提案する。
ハイブリッドデータ収集プラットフォーム(ヘッドマウントディスプレイとVRインターフェース)を利用することで、RGBとバイオインスパイアされたイベントカメラを統合して、動作中の屋内レイアウトをキャプチャします。
Incorporating time-series data from inertial Measurement Unit (IMUs) and ambient lighting conditions recorded during data collection to highlight the potential impact of motion speed and lighting on layout estimation accuracy。
データセットは、771.3K RGBイメージと100億のイベントデータポイントを含む2.5Kシーケンスで構成されている。
そのうち39K画像は屋内レイアウトでアノテートされ、イベントベースとビデオベースの両方の屋内レイアウトを推定できる。
このデータセットに基づいて,イベントから時空間情報を効果的に集約する新しいイベント時間分布機能モジュールを備えたイベントベースのレイアウト推定パイプラインを提案する。
さらに, 時空間的特徴融合モジュールを導入し, 融合目的に変換モジュールに容易に組み込めるようにした。
最後に、Ev-Layoutデータセットのベンチマークと広範な実験を行い、既存のイベントベース手法と比較して、動的屋内配置推定の精度を著しく向上することを示した。
関連論文リスト
- EvLight++: Low-Light Video Enhancement with an Event Camera: A Large-Scale Real-World Dataset, Novel Method, and More [7.974102031202597]
EvLight++は、現実のシナリオで堅牢なパフォーマンスのために設計された、イベント誘導型低照度ビデオ拡張アプローチである。
EvLight++は1.37dBと3.71dBの2つのイメージベースとビデオベースの両方で大幅に性能が向上した。
論文 参考訳(メタデータ) (2024-08-29T04:30:31Z) - TENet: Targetness Entanglement Incorporating with Multi-Scale Pooling and Mutually-Guided Fusion for RGB-E Object Tracking [30.89375068036783]
既存のアプローチでは、従来の外観モデルを用いて、RGB-E追跡のためのイベント特徴抽出を行う。
本稿では,イベントデータ固有の特徴を認識可能な高品質な特徴表現を実現するために,イベントバックボーン(Pooler)を提案する。
提案手法は,2つの広く使用されているRGB-E追跡データセットにおいて,最先端トラッカーを著しく上回っている。
論文 参考訳(メタデータ) (2024-05-08T12:19:08Z) - ColorMNet: A Memory-based Deep Spatial-Temporal Feature Propagation Network for Video Colorization [62.751303924391564]
映像のカラー化において,空間時間的特徴を効果的に探索する方法が重要である。
我々は,メモリベースの機能伝搬モジュールを開発し,遠方のフレームからの機能との信頼性の高い接続を確立する。
空間時間近傍の隣接するフレームから特徴を集約するローカルアテンションモジュールを開発した。
論文 参考訳(メタデータ) (2024-04-09T12:23:30Z) - Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline [37.06330707742272]
まず, FELTと呼ばれる, 長期的かつ大規模な単一オブジェクト追跡データセットを提案する。
742の動画と1,594,474のRGBフレームとイベントストリームペアが含まれており、これまでで最大のフレームイベント追跡データセットになっている。
本稿では,RGBとイベントデータの両方を融合させるために,現代的なホップフィールド層をマルチヘッド自己アテンションブロックに導入することで,統一バックボーンとして新しい連想メモリトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-09T08:49:50Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - iBARLE: imBalance-Aware Room Layout Estimation [54.819085005591894]
ルームレイアウト推定は、1つのパノラマからレイアウトを予測する。
実際のデータセットには、レイアウトの複雑さの次元、カメラの位置、シーンの外観の変化など、大きな不均衡がある。
これらの問題に対処するために, imBalance-Aware Room Layout Estimation (iBARLE) フレームワークを提案する。
iBARLEは、(1)外観変化生成(AVG)モジュール、(2)複合構造混合(CSMix)モジュール、(3)勾配に基づくレイアウト目的関数からなる。
論文 参考訳(メタデータ) (2023-08-29T06:20:36Z) - On the Generation of a Synthetic Event-Based Vision Dataset for
Navigation and Landing [69.34740063574921]
本稿では,最適な着陸軌道からイベントベースの視覚データセットを生成する手法を提案する。
我々は,惑星と小惑星の自然シーン生成ユーティリティを用いて,月面のフォトリアリスティックな画像のシーケンスを構築した。
パイプラインは500トラジェクトリのデータセットを構築することで,表面特徴の現実的なイベントベース表現を生成することができることを示す。
論文 参考訳(メタデータ) (2023-08-01T09:14:20Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Indoor Layout Estimation by 2D LiDAR and Camera Fusion [3.2387553628943535]
本稿では,画像列とLiDARデータセットの融合による屋内レイアウト推定と再構築のためのアルゴリズムを提案する。
提案システムでは,2次元LiDAR情報とインテンシティ画像の両方を移動プラットフォームで収集する。
論文 参考訳(メタデータ) (2020-01-15T16:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。