論文の概要: Temporal Scale and Shift Invariant Automatic Event Recognition using the Mellin Transform
- arxiv url: http://arxiv.org/abs/2502.09939v1
- Date: Fri, 14 Feb 2025 06:24:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:45:56.051508
- Title: Temporal Scale and Shift Invariant Automatic Event Recognition using the Mellin Transform
- Title(参考訳): Mellin変換を用いた時間スケール・シフト不変自動イベント認識
- Authors: Xi Shen, Julian Gamboa, Tabassom Hamidfar, Shamima A. Mitu, Selim M. Shahriar,
- Abstract要約: 本研究では,異なる速度で動作する動画の自動イベント認識を実現する手法を提案する。
この手法により、認識精度を高く向上させ、ビデオデータベース内のほぼすべての不要事象をフィルタリングすることができる。
- 参考スコア(独自算出の注目度): 1.9258818306207137
- License:
- Abstract: The Spatio-temporal holographic correlator combines the traditional 2D optical image correlation techniques with inhomogeneously broadened arrays of cold atoms to achieve 3D time-space correlation to realize automatic event recognition at an ultra-high speed. Here we propose a method to realize such event recognition for videos running at different speeds. With this method, we can highly improve recognition accuracy and filter almost all the unwanted events in the video database.
- Abstract(参考訳): 時空間相関器は、従来の2次元光学画像相関技術と不均一に拡張された低温原子のアレイを組み合わせることで、3次元時間空間相関を実現し、超高速で自動事象認識を実現する。
本稿では,異なる速度で動作するビデオに対して,このようなイベント認識を実現する手法を提案する。
この手法により、認識精度を向上し、ビデオデータベース内のほぼすべての不要事象をフィルタリングすることができる。
関連論文リスト
- Neuromorphic spatiotemporal optical flow: Enabling ultrafast visual perception beyond human capabilities [12.409087198219693]
シナプストランジスタアレイに時間情報を直接符号化することで遅延ボトルネックに対処するニューロモルフィック光フロー手法を提案する。
従来の空間限定光流法と比較して,動作情報の時空間整合性を提供する。
ソフトウェアベンチマークでは、我々のシステムは400%のスピードアップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2024-09-10T10:59:32Z) - Temporal Event Stereo via Joint Learning with Stereoscopic Flow [44.479946706395694]
イベントカメラは生体網膜にインスパイアされた動的視覚センサーである。
本稿では,新しい時間的イベントステレオフレームワークを提案する。
我々はMVSECとDSECデータセットで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-15T15:43:08Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。