論文の概要: Fast Feature Field ($\text{F}^3$): A Predictive Representation of Events
- arxiv url: http://arxiv.org/abs/2509.25146v1
- Date: Mon, 29 Sep 2025 17:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.192592
- Title: Fast Feature Field ($\text{F}^3$): A Predictive Representation of Events
- Title(参考訳): Fast Feature Field ($\text{F}^3$): イベントの予測表現
- Authors: Richeek Das, Kostas Daniilidis, Pratik Chaudhari,
- Abstract要約: 本稿では,イベントベースカメラからのデータ表現を構築するための数学的議論とアルゴリズムを開発する。
我々は、過去の出来事から将来の出来事を予測することでこの表現を学び、シーン構造と動き情報を保存することを示す。
- 参考スコア(独自算出の注目度): 44.66523196882289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper develops a mathematical argument and algorithms for building representations of data from event-based cameras, that we call Fast Feature Field ($\text{F}^3$). We learn this representation by predicting future events from past events and show that it preserves scene structure and motion information. $\text{F}^3$ exploits the sparsity of event data and is robust to noise and variations in event rates. It can be computed efficiently using ideas from multi-resolution hash encoding and deep sets - achieving 120 Hz at HD and 440 Hz at VGA resolutions. $\text{F}^3$ represents events within a contiguous spatiotemporal volume as a multi-channel image, enabling a range of downstream tasks. We obtain state-of-the-art performance on optical flow estimation, semantic segmentation, and monocular metric depth estimation, on data from three robotic platforms (a car, a quadruped robot and a flying platform), across different lighting conditions (daytime, nighttime), environments (indoors, outdoors, urban, as well as off-road) and dynamic vision sensors (resolutions and event rates). Our implementations can predict these tasks at 25-75 Hz at HD resolution.
- Abstract(参考訳): 本稿では,Fast Feature Field(\text{F}^3$)と呼ぶ,イベントベースのカメラからのデータ表現を構築するための数学的議論とアルゴリズムを開発する。
我々は、過去の出来事から将来の出来事を予測することでこの表現を学び、シーン構造と動き情報を保存することを示す。
$\text{F}^3$は、イベントデータの空間性を悪用し、ノイズやイベントレートの変動に対して堅牢である。
マルチレゾリューションハッシュエンコーディングとディープセットのアイデア(HDでは120Hz、VGAでは440Hz)を使って効率よく計算できる。
$\text{F}^3$は、連続した時空間ボリューム内のイベントをマルチチャネルイメージとして表現し、下流タスクの範囲を可能にする。
我々は3つのロボットプラットフォーム(車、四足歩行ロボット、飛行プラットフォーム)、様々な照明条件(昼間、夜間)、環境(屋内、屋外、都市、オフロード)、動的視覚センサ(分解能と事象率)のデータに基づいて、光学的フロー推定、セマンティックセグメンテーション、モノクル距離推定の最先端性能を得る。
我々の実装では、HD解像度でこれらのタスクを25-75Hzで予測できる。
関連論文リスト
- EventSTU: Event-Guided Efficient Spatio-Temporal Understanding for Video Large Language Models [56.16721798968254]
本研究では,EventSTUという,効率的な理解のためのイベント誘導学習自由フレームワークを提案する。
時間領域において、不要な大フレームを除去するために、イベントカメラのトリガー特性を変化させる粗大なサンプリングアルゴリズムを設計する。
空間領域では,イベントの正当性をゼロコストとして活用し,空間的縮小を誘導する適応的トークンプルーニングアルゴリズムを実現する。
論文 参考訳(メタデータ) (2025-11-24T09:30:02Z) - EventTracer: Fast Path Tracing-based Event Stream Rendering [22.899799024836586]
EventTracerは、複雑な3Dシーンからの高忠実度イベントシーケンスをシミュレートするパストレースベースのレンダリングパイプラインである。
EventTracerがより優れたシーンの詳細をキャプチャし、実際のイベントデータと他のイベントシミュレータとの類似性を示す2つの下流タスクを示す。
論文 参考訳(メタデータ) (2025-08-25T14:33:09Z) - Event Stream based Human Action Recognition: A High-Definition Benchmark Dataset and Algorithms [29.577583619354314]
本稿では,CeleX-Vイベントカメラを用いた大規模かつ高精細度(1280×800ドル)の人間行動認識データセットを提案する。
より包括的なベンチマークデータセットを構築するために、今後比較する作業のために、20以上の主流なHARモデルを報告します。
論文 参考訳(メタデータ) (2024-08-19T07:52:20Z) - An Event-Oriented Diffusion-Refinement Method for Sparse Events
Completion [36.64856578682197]
イベントカメラまたはダイナミックビジョンセンサー(DVS)は、従来の強度フレームの代わりに輝度の変化に対する非同期応答を記録する。
本稿では,処理段階と出力形態の両方において,イベントデータのユニークな特性に適合するイベント完了シーケンス手法を提案する。
具体的には,イベントストリームを時間領域内の3次元イベントクラウドとして扱うとともに,高密度の雲を粗大に生成する拡散モデルを構築し,正確なタイムスタンプを復元して生データの時間分解を成功させる。
論文 参考訳(メタデータ) (2024-01-06T08:09:54Z) - Exploring Event-based Human Pose Estimation with 3D Event Representations [26.34100847541989]
我々は、Rasterized Event Point Cloud(Ras EPC)とDecoupled Event Voxel(DEV)の2つの3Dイベント表現を紹介した。
Ras EPCは、簡潔な時間スライス内のイベントを同じ位置で集約し、それらの3D属性を統計情報と共に保存し、メモリと計算要求を大幅に削減する。
提案手法は,DHP19公開データセット,MMHPSDデータセット,EV-3DPWデータセットで検証し,誘導駆動シーンデータセットEV-JAADと屋外収集車両によるさらなる定性検証を行った。
論文 参考訳(メタデータ) (2023-11-08T10:45:09Z) - EvDNeRF: Reconstructing Event Data with Dynamic Neural Radiance Fields [80.94515892378053]
EvDNeRFは、イベントデータを生成し、イベントベースの動的NeRFをトレーニングするためのパイプラインである。
NeRFは幾何学ベースの学習可能なレンダリングを提供するが、イベントの以前の作業は静的なシーンの再構築のみを考慮していた。
各種イベントのバッチサイズをトレーニングすることにより、微細な時間解像度でイベントのテスト時間予測を改善することができることを示す。
論文 参考訳(メタデータ) (2023-10-03T21:08:41Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - BlinkFlow: A Dataset to Push the Limits of Event-based Optical Flow Estimation [76.66876888943385]
イベントカメラは、高時間精度、低データレート、高ダイナミックレンジ視覚知覚を提供する。
イベントベース光フローのための大規模データを高速に生成するための新しいシミュレータBlinkSimを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:03:54Z) - Event Transformer [43.193463048148374]
イベントカメラの消費電力が低く、マイクロ秒の明るさを捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。
既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。
この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。
論文 参考訳(メタデータ) (2022-04-11T15:05:06Z) - 3D-FlowNet: Event-based optical flow estimation with 3D representation [2.062593640149623]
イベントベースのカメラは、高速モーション検出などの重要なタスクのためにフレームベースのカメラ制限を克服することができる。
ディープニューラルネットワークは、非同期で離散的なイベントデータを扱うようには適していない。
本稿では,3次元入力表現を処理し,光フロー推定を出力できる新しいネットワークアーキテクチャである3D-FlowNetを提案する。
論文 参考訳(メタデータ) (2022-01-28T17:28:15Z) - VisEvent: Reliable Object Tracking via Collaboration of Frame and Event
Flows [93.54888104118822]
このタスクには現実的でスケールしたデータセットがないため、大規模なVisible-Eventベンチマーク(VisEventと呼ぶ)を提案する。
私たちのデータセットは、低照度、高速、背景乱雑なシナリオ下でキャプチャされた820のビデオペアで構成されています。
VisEventに基づいて、イベントフローをイベントイメージに変換し、30以上のベースラインメソッドを構築します。
論文 参考訳(メタデータ) (2021-08-11T03:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。