論文の概要: Event-based Timestamp Image Encoding Network for Human Action
Recognition and Anticipation
- arxiv url: http://arxiv.org/abs/2104.05145v1
- Date: Mon, 12 Apr 2021 00:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 05:21:48.360503
- Title: Event-based Timestamp Image Encoding Network for Human Action
Recognition and Anticipation
- Title(参考訳): 人間の行動認識と予測のためのイベントベースのタイムスタンプ画像符号化ネットワーク
- Authors: Chaoxing Huang
- Abstract要約: イベントカメラは、低消費電力の非同期高周波センサであり、人間の行動理解作業に適している。
本研究では,イベントデータの極性情報を含む空間時空間画像の入力と出力を行うタイムスタンプ画像符号化2dネットワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Event camera is an asynchronous, high frequencyvision sensor with low power
consumption, which is suitable forhuman action understanding task. It is vital
to encode the spatial-temporal information of event data properly and use
standardcomputer vision tool to learn from the data. In this work, wepropose a
timestamp image encoding 2D network, which takes theencoded spatial-temporal
images with polarity information of theevent data as input and output the
action label. In addition, wepropose a future timestamp image generator to
generate futureaction information to aid the model to anticipate the
humanaction when the action is not completed. Experiment results showthat our
method can achieve the same level of performance asthose RGB-based benchmarks
on real world action recognition,and also achieve the state of the art (SOTA)
result on gesturerecognition. Our future timestamp image generating model
caneffectively improve the prediction accuracy when the action is notcompleted.
We also provide insight discussion on the importanceof motion and appearance
information in action recognition andanticipation.
- Abstract(参考訳): イベントカメラは、低消費電力の非同期高周波センサであり、人間の行動理解作業に適している。
イベントデータの時空間情報を適切にエンコードし、標準コンピュータビジョンツールを使用してデータから学習することが不可欠である。
本研究では,イベントデータの極性情報を含む空間時空間画像の入力と出力を行うタイムスタンプ画像符号化2dネットワークを提案する。
さらに、将来のタイムスタンプ画像生成装置を作成し、将来のアクション情報を生成し、アクションが完了していないときの人間のアクションを予測する。
実験の結果,本手法は実世界行動認識におけるrgbベースベンチマークと同程度の性能を達成でき,ジェスチャー認識による技術(sota)結果も達成できることがわかった。
今後のタイムスタンプ画像生成モデルでは,動作完了時の予測精度が効果的に向上する。
また,行動認識と予測における動作情報と出現情報の重要性について考察する。
関連論文リスト
- SpikMamba: When SNN meets Mamba in Event-based Human Action Recognition [13.426390494116776]
人間の行動認識(HAR)は、ビデオ分析、監視、自律運転、ロボット工学、医療など、様々な分野で重要な役割を果たしている。
ほとんどのHARアルゴリズムは、詳細な視覚情報をキャプチャするRGB画像から開発されている。
イベントカメラは、全画像を撮影することなく、ピクセルレベルでのシーンの明るさ変化をわずかに捉えることで、有望な解決策を提供する。
論文 参考訳(メタデータ) (2024-10-22T07:00:43Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Event-based Vision for Early Prediction of Manipulation Actions [0.7699714865575189]
ニューロモルフィック視覚センサー(Neuromorphic visual sensor)は、シーンの明るさが変化したときの事象の出力をシーケンスする人工網膜である。
本研究では,微粒な操作動作に関するイベントベースデータセットを提案する。
また,事象を伴う行動予測にトランスフォーマーを用いることについて実験的に検討した。
論文 参考訳(メタデータ) (2023-07-26T17:50:17Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - Event-based Action Recognition Using Timestamp Image Encoding Network [0.0]
イベントカメラは、低消費電力の非同期で高周波の視覚センサである。
本稿では,イベントデータの空間時空間画像を入力とし,動作ラベルを出力する2Dネットワークを符号化するタイムスタンプ画像を提案する。
論文 参考訳(メタデータ) (2020-09-28T03:48:14Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - Attention-Oriented Action Recognition for Real-Time Human-Robot
Interaction [11.285529781751984]
本稿では,リアルタイムインタラクションの必要性に応えるために,アテンション指向のマルチレベルネットワークフレームワークを提案する。
具体的には、プレアテンションネットワークを使用して、低解像度でシーン内のインタラクションに大まかにフォーカスする。
他のコンパクトCNNは、抽出されたスケルトンシーケンスをアクション認識用の入力として受信する。
論文 参考訳(メタデータ) (2020-07-02T12:41:28Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。