論文の概要: Fourier-based Action Recognition for Wildlife Behavior Quantification with Event Cameras
- arxiv url: http://arxiv.org/abs/2410.06698v1
- Date: Wed, 9 Oct 2024 09:06:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 04:10:03.593326
- Title: Fourier-based Action Recognition for Wildlife Behavior Quantification with Event Cameras
- Title(参考訳): イベントカメラを用いた野生生物行動定量化のためのフーリエに基づく行動認識
- Authors: Friedhelm Hamann, Suman Ghosh, Ignacio Juarez Martinez, Tom Hart, Alex Kacelnik, Guillermo Gallego,
- Abstract要約: 本稿では,フーリエ変換に基づく行動認識手法を提案する。
特に,我々のアプローチを「静電ディスプレイ」に注釈を付けたペンギンの繁殖データセットに適用する。
我々のアプローチは単純かつ効果的であり、ディープニューラルネットワーク(DNN)よりもわずかに低い結果が得られることが分かりました。
- 参考スコア(独自算出の注目度): 9.107129038623242
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Event cameras are novel bio-inspired vision sensors that measure pixel-wise brightness changes asynchronously instead of images at a given frame rate. They offer promising advantages, namely a high dynamic range, low latency, and minimal motion blur. Modern computer vision algorithms often rely on artificial neural network approaches, which require image-like representations of the data and cannot fully exploit the characteristics of event data. We propose approaches to action recognition based on the Fourier Transform. The approaches are intended to recognize oscillating motion patterns commonly present in nature. In particular, we apply our approaches to a recent dataset of breeding penguins annotated for "ecstatic display", a behavior where the observed penguins flap their wings at a certain frequency. We find that our approaches are both simple and effective, producing slightly lower results than a deep neural network (DNN) while relying just on a tiny fraction of the parameters compared to the DNN (five orders of magnitude fewer parameters). They work well despite the uncontrolled, diverse data present in the dataset. We hope this work opens a new perspective on event-based processing and action recognition.
- Abstract(参考訳): イベントカメラはバイオインスパイアされた新しい視覚センサーで、特定のフレームレートの画像ではなく、ピクセルの明るさが非同期に変化する。
それらは有望なアドバンテージ、すなわち、高いダイナミックレンジ、低レイテンシ、最小のモーションぼかしを提供する。
現代のコンピュータビジョンアルゴリズムは、しばしば、画像のようなデータ表現を必要とし、イベントデータの特徴を完全に活用できない、人工知能のアプローチに依存している。
本稿では,フーリエ変換に基づく行動認識手法を提案する。
これらのアプローチは、自然界に一般的に存在する振動する動きパターンを認識することを目的としている。
特に、我々のアプローチは、観察されたペンギンが特定の頻度で羽を羽ばたかせる行動である「静電ディスプレイ」に注釈付けされたペンギンの繁殖データセットに適用する。
我々のアプローチは単純かつ効果的であり、DNN(Deep Neural Network:ディープニューラルネットワーク)よりもわずかに低い結果を生み出す一方で、DNN(5桁のパラメータ)に比べてパラメータのごく一部に依存していることがわかった。
データセットに存在する、コントロールされていない多様なデータにもかかわらず、うまく機能する。
この作業が、イベントベースの処理とアクション認識に関する新たな視点を開くことを願っています。
関連論文リスト
- SpikMamba: When SNN meets Mamba in Event-based Human Action Recognition [13.426390494116776]
人間の行動認識(HAR)は、ビデオ分析、監視、自律運転、ロボット工学、医療など、様々な分野で重要な役割を果たしている。
ほとんどのHARアルゴリズムは、詳細な視覚情報をキャプチャするRGB画像から開発されている。
イベントカメラは、全画像を撮影することなく、ピクセルレベルでのシーンの明るさ変化をわずかに捉えることで、有望な解決策を提供する。
論文 参考訳(メタデータ) (2024-10-22T07:00:43Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Neuromorphic Imaging and Classification with Graph Learning [11.882239213276392]
バイオインスパイアされたニューロモルフィックカメラは、画素輝度変化を非同期に記録し、スパースイベントストリームを生成する。
多次元アドレスイベント構造のため、既存の視覚アルゴリズムは非同期イベントストリームを適切に扱えない。
イベントデータの新しいグラフ表現を提案し,それをグラフ変換器と組み合わせて正確なニューロモルフィック分類を行う。
論文 参考訳(メタデータ) (2023-09-27T12:58:18Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Inverting the Imaging Process by Learning an Implicit Camera Model [73.81635386829846]
本稿では,ディープニューラルネットワークとしてのカメラの物理画像処理を表現した,新しい暗黙カメラモデルを提案する。
本稿では,この暗黙カメラモデルが2つの逆撮像タスクに与える影響を実演する。
論文 参考訳(メタデータ) (2023-04-25T11:55:03Z) - NEWTON: Neural View-Centric Mapping for On-the-Fly Large-Scale SLAM [51.21564182169607]
Newtonは、リアルタイム観測に基づいて動的にニューラルネットワークを構築するビュー中心のマッピング手法である。
本手法は,複数のニューラルネットワークを用いてシーンを表現することで,ループクロージャとシーン境界更新を用いたカメラポーズ更新を可能にする。
実験の結果,既存の世界中心型ニューラルネットワークSLAMシステムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-03-23T20:22:01Z) - Optical flow estimation from event-based cameras and spiking neural
networks [0.4899818550820575]
イベントベースセンサーはスパイキングニューラルネットワーク(SNN)に最適である
教師付きトレーニング後,高密度光フロー推定が可能なU-NetライクなSNNを提案する。
分離可能な畳み込みにより、我々は、合理的に正確な光フロー推定が得られる光モデルを開発することができた。
論文 参考訳(メタデータ) (2023-02-13T16:17:54Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。
本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。
我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文 参考訳(メタデータ) (2020-02-10T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。