論文の概要: An End-to-End Two-Stream Network Based on RGB Flow and Representation Flow for Human Action Recognition
- arxiv url: http://arxiv.org/abs/2411.18002v1
- Date: Wed, 27 Nov 2024 02:46:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:28:15.550525
- Title: An End-to-End Two-Stream Network Based on RGB Flow and Representation Flow for Human Action Recognition
- Title(参考訳): RGBフローと表現フローに基づくエンド・ツー・エンド2ストリームネットワークによる人間行動認識
- Authors: Song-Jiang Lai, Tsun-Hin Cheung, Ka-Chun Fung, Tian-Shan Liu, Kin-Man Lam,
- Abstract要約: 我々は,エゴセントリックな行動認識モデルにおいて,光フロー分岐の代わりに表現フローを導入する。
自己中心型行動認識のためのモデルでは,クラスアクティベーションマップ(CAM)を用いて精度を向上し,空間的注意を伴う時間符号化のためのConvLSTMを提案する。
- 参考スコア(独自算出の注目度): 13.652724353228328
- License:
- Abstract: With the rapid advancements in deep learning, computer vision tasks have seen significant improvements, making two-stream neural networks a popular focus for video based action recognition. Traditional models using RGB and optical flow streams achieve strong performance but at a high computational cost. To address this, we introduce a representation flow algorithm to replace the optical flow branch in the egocentric action recognition model, enabling end-to-end training while reducing computational cost and prediction time. Our model, designed for egocentric action recognition, uses class activation maps (CAMs) to improve accuracy and ConvLSTM for spatio temporal encoding with spatial attention. When evaluated on the GTEA61, EGTEA GAZE+, and HMDB datasets, our model matches the accuracy of the original model on GTEA61 and exceeds it by 0.65% and 0.84% on EGTEA GAZE+ and HMDB, respectively. Prediction runtimes are significantly reduced to 0.1881s, 0.1503s, and 0.1459s, compared to the original model's 101.6795s, 25.3799s, and 203.9958s. Ablation studies were also conducted to study the impact of different parameters on model performance. Keywords: two-stream, egocentric, action recognition, CAM, representation flow, CAM, ConvLSTM
- Abstract(参考訳): ディープラーニングの急速な進歩により、コンピュータビジョンタスクは大幅に改善され、2ストリームニューラルネットワークはビデオベースのアクション認識の一般的な焦点となっている。
RGBと光フローストリームを用いた従来のモデルは、高い性能を実現するが、計算コストが高い。
そこで我々は,エゴセントリックな行動認識モデルにおける光フロー分岐を置き換える表現フローアルゴリズムを導入し,計算コストと予測時間を削減しつつ,エンドツーエンドのトレーニングを可能にする。
自己中心型行動認識のためのモデルでは,クラスアクティベーションマップ(CAM)を用いて精度を向上し,空間的注意を伴う時空間符号化のためのConvLSTMを提案する。
GTEA61, EGTEA GAZE+, HMDBデータセットで評価すると, このモデルはGTEA61の原モデルの精度と一致し, EGTEA GAZE+およびHMDBでは0.65%, 0.84%を超える。
予測ランタイムは101.6795s、25.3799s、203.9958sに比べて0.1881s、0.1503s、0.1459sに大幅に削減された。
また,異なるパラメータがモデル性能に与える影響について,アブレーション研究を行った。
キーワード:2ストリーム、エゴセントリック、アクション認識、CAM、表現フロー、CAM、ConvLSTM
関連論文リスト
- Application of Long-Short Term Memory and Convolutional Neural Networks for Real-Time Bridge Scour Prediction [0.0]
我々は,過去のセンサモニタリングデータに基づいて,橋脚周辺の深度変化を予測するために,ディープラーニングアルゴリズムの力を利用する。
本研究では,Long Short-Term Memory (LSTM) モデルとConvolutional Neural Network (CNN) モデルの性能について検討した。
論文 参考訳(メタデータ) (2024-04-25T12:04:36Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - Semi-Autoregressive Streaming ASR With Label Context [70.76222767090638]
本稿では,先行ブロックで出力されたラベルを付加コンテキストとして組み込んだストリーミング「半自己回帰型」ASRモデルを提案する。
実験の結果,既存のストリーミングNARモデルではTedlium2が19%,Librispeech-100が16%/8%,Switchboard(SWB)/Callhome(CH)テストセットが19%/8%であった。
論文 参考訳(メタデータ) (2023-09-19T20:55:58Z) - Continuous time recurrent neural networks: overview and application to
forecasting blood glucose in the intensive care unit [56.801856519460465]
連続時間自己回帰リカレントニューラルネットワーク(Continuous Time Autoregressive Recurrent Neural Network, CTRNN)は、不規則な観測を考慮に入れたディープラーニングモデルである。
重篤なケア環境下での血糖値の確率予測へのこれらのモデルの適用を実証する。
論文 参考訳(メタデータ) (2023-04-14T09:39:06Z) - HARDC : A novel ECG-based heartbeat classification method to detect
arrhythmia using hierarchical attention based dual structured RNN with
dilated CNN [3.8791511769387625]
不整脈分類のための拡張CNN (HARDC) 法を用いたハイブリッド階層型双方向リカレントニューラルネットワークを開発した。
提案したHARDCは、拡張CNNと双方向リカレントニューラルネットワークユニット(BiGRU-BiLSTM)アーキテクチャをフル活用して、融合機能を生成する。
以上の結果から,複数種類の不整脈信号の分類を自動化し,高度に計算した手法が有望であることが示唆された。
論文 参考訳(メタデータ) (2023-03-06T13:26:29Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Exploiting the ConvLSTM: Human Action Recognition using Raw Depth
Video-Based Recurrent Neural Networks [0.0]
本稿では,畳み込み長短期記憶ユニット,すなわちConvLSTMに基づく2つのニューラルネットワークを提案し,比較する。
提案モデルは,最先端手法と比較して,計算コストの低い競合認識精度を実現する。
論文 参考訳(メタデータ) (2020-06-13T23:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。