論文の概要: FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification
- arxiv url: http://arxiv.org/abs/2209.11316v1
- Date: Thu, 22 Sep 2022 21:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 16:42:42.956806
- Title: FuTH-Net: Fusing Temporal Relations and Holistic Features for Aerial
Video Classification
- Title(参考訳): futh-net: 空中ビデオ分類における時間的関係と全体的特徴の融合
- Authors: Pu Jin, Lichao Mou, Yuansheng Hua, Gui-Song Xia, Xiao Xiang Zhu
- Abstract要約: 本稿では,FuTH-Netと呼ばれる新しいディープニューラルネットワークを提案する。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
- 参考スコア(独自算出の注目度): 49.06447472006251
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Unmanned aerial vehicles (UAVs) are now widely applied to data acquisition
due to its low cost and fast mobility. With the increasing volume of aerial
videos, the demand for automatically parsing these videos is surging. To
achieve this, current researches mainly focus on extracting a holistic feature
with convolutions along both spatial and temporal dimensions. However, these
methods are limited by small temporal receptive fields and cannot adequately
capture long-term temporal dependencies which are important for describing
complicated dynamics. In this paper, we propose a novel deep neural network,
termed FuTH-Net, to model not only holistic features, but also temporal
relations for aerial video classification. Furthermore, the holistic features
are refined by the multi-scale temporal relations in a novel fusion module for
yielding more discriminative video representations. More specially, FuTH-Net
employs a two-pathway architecture: (1) a holistic representation pathway to
learn a general feature of both frame appearances and shortterm temporal
variations and (2) a temporal relation pathway to capture multi-scale temporal
relations across arbitrary frames, providing long-term temporal dependencies.
Afterwards, a novel fusion module is proposed to spatiotemporal integrate the
two features learned from the two pathways. Our model is evaluated on two
aerial video classification datasets, ERA and Drone-Action, and achieves the
state-of-the-art results. This demonstrates its effectiveness and good
generalization capacity across different recognition tasks (event
classification and human action recognition). To facilitate further research,
we release the code at https://gitlab.lrz.de/ai4eo/reasoning/futh-net.
- Abstract(参考訳): 無人航空機(uavs)は、低コストと高速移動性のため、データ取得に広く利用されている。
空撮ビデオの増加に伴い、これらのビデオを自動解析する需要は急増している。
これを達成するために、現在の研究は主に空間次元と時間次元の両方に沿って畳み込みを伴う全体像の抽出に焦点を当てている。
しかし、これらの手法は小さな時間受容場によって制限され、複雑なダイナミクスを記述するのに重要な長期的な時間依存を十分に捉えることができない。
本稿では,futh-netと呼ばれる新しい深層ニューラルネットワークを提案する。
さらに、より識別的な映像表現を実現するために、新しい融合モジュールにおける多スケールな時間関係により、総括的特徴を洗練する。
より具体的には、FuTH-Netは、(1)フレームの外観と短期の時間的変動の両方の一般的な特徴を学習するための全体論的表現経路、(2)任意のフレーム間のマルチスケールの時間的関係を捕捉し、長期の時間的依存関係を提供する時間的関係経路である。
その後、2つの経路から得られた2つの特徴を時空間的に統合する新しい融合モジュールが提案された。
本モデルは,ERAとDrone-Actionの2つの航空映像分類データセットを用いて評価し,最先端の成果を得た。
これは、異なる認識タスク(イベント分類と人間の行動認識)における有効性と優れた一般化能力を示す。
さらなる研究を容易にするために、コードはhttps://gitlab.lrz.de/ai4eo/reasoning/futh-netでリリースします。
関連論文リスト
- ASF-Net: Robust Video Deraining via Temporal Alignment and Online
Adaptive Learning [47.10392889695035]
本稿では,時間シフトモジュールを組み込んだ新しい計算パラダイムであるアライメント・シフト・フュージョン・ネットワーク(ASF-Net)を提案する。
LArgeスケールのRAINYビデオデータセット(LARA)を構築し,このコミュニティの開発を支援する。
提案手法は,3つのベンチマークにおいて優れた性能を示し,実世界のシナリオにおいて魅力的な視覚的品質を示す。
論文 参考訳(メタデータ) (2023-09-02T14:50:13Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Revisiting the Spatial and Temporal Modeling for Few-shot Action
Recognition [16.287968292213563]
スロシュネット(SloshNet)は、数発のアクション認識のための空間的および時間的モデリングを、より細かく修正する新しいフレームワークである。
提案するSloshNetは,Something V2, Kinetics, UCF101, HMDB51の4つのアクション認識データセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-01-19T08:34:04Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - GTA: Global Temporal Attention for Video Action Understanding [51.476605514802806]
空間的注意を軸にグローバルな時間的注目を行うグローバルテンポラルアテンション(AGT:Global Temporal Attention)を分離的に紹介します。
2Dおよび3Dネットワーク上でのテストは、我々のアプローチが時間的モデリングを一貫して強化し、3つのビデオアクション認識データセットに対して最先端のパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2020-12-15T18:58:21Z) - Exploring Rich and Efficient Spatial Temporal Interactions for Real Time
Video Salient Object Detection [87.32774157186412]
メインストリーム方式は、主に2つの独立した場所、すなわち空間的分岐と時間的分岐からビデオ・サリエンシを定式化する。
本稿では,このような改善を実現するための時間的ネットワークを提案する。
提案手法は実装が簡単で,50FPSで高精細度をリアルタイムに検出できる。
論文 参考訳(メタデータ) (2020-08-07T03:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。