論文の概要: Exploring Explainability in Video Action Recognition
- arxiv url: http://arxiv.org/abs/2404.09067v1
- Date: Sat, 13 Apr 2024 19:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 17:24:26.022796
- Title: Exploring Explainability in Video Action Recognition
- Title(参考訳): 映像行動認識における説明可能性の探索
- Authors: Avinab Saha, Shashank Gupta, Sravan Kumar Ankireddy, Karl Chahine, Joydeep Ghosh,
- Abstract要約: ビデオ行動認識と画像分類はコンピュータビジョンの基本課題である。
Video-TCAVは、ビデオ行動認識モデルの意思決定プロセスにおいて、特定の概念の重要性を定量化することを目的としている。
本稿では,ビデオ-TCAVテストにおいて,映像行動認識に関連する空間的・時間的概念を生成するための機械支援手法を提案する。
- 参考スコア(独自算出の注目度): 5.7782784592048575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image Classification and Video Action Recognition are perhaps the two most foundational tasks in computer vision. Consequently, explaining the inner workings of trained deep neural networks is of prime importance. While numerous efforts focus on explaining the decisions of trained deep neural networks in image classification, exploration in the domain of its temporal version, video action recognition, has been scant. In this work, we take a deeper look at this problem. We begin by revisiting Grad-CAM, one of the popular feature attribution methods for Image Classification, and its extension to Video Action Recognition tasks and examine the method's limitations. To address these, we introduce Video-TCAV, by building on TCAV for Image Classification tasks, which aims to quantify the importance of specific concepts in the decision-making process of Video Action Recognition models. As the scalable generation of concepts is still an open problem, we propose a machine-assisted approach to generate spatial and spatiotemporal concepts relevant to Video Action Recognition for testing Video-TCAV. We then establish the importance of temporally-varying concepts by demonstrating the superiority of dynamic spatiotemporal concepts over trivial spatial concepts. In conclusion, we introduce a framework for investigating hypotheses in action recognition and quantitatively testing them, thus advancing research in the explainability of deep neural networks used in video action recognition.
- Abstract(参考訳): 画像分類とビデオアクション認識は、おそらくコンピュータビジョンにおける最も基本的な2つのタスクである。
したがって、訓練された深層ニューラルネットワークの内部動作を説明することが重要である。
画像分類において、訓練されたディープニューラルネットワークの決定を説明することに多くの取り組みがなされているが、その時間バージョンであるビデオアクション認識の領域での探索はスキャンされている。
本研究では,この問題についてより深く検討する。
まず,画像分類における特徴帰属手法の1つであるGrad-CAMと,ビデオ行動認識タスクの拡張について再検討し,その限界について検討する。
これらの課題に対処するために,ビデオ行動認識モデルの意思決定プロセスにおいて,特定の概念の重要性を定量化することを目的とした,画像分類タスクのためのTCAVに基づくビデオTCAVを導入する。
拡張性のある概念の生成は依然として未解決の課題であるため,ビデオTCAVテストにおいてビデオ行動認識に関連する空間的・時空間的概念を機械支援で生成する手法を提案する。
次に、自明な空間概念に対する動的時空間概念の優越性を示すことによって、時間的に変化する概念の重要性を確立する。
結論として,動作認識における仮説を検証し,定量的に検証する枠組みを導入し,映像行動認識に使用される深層ニューラルネットワークの説明可能性の研究を進めた。
関連論文リスト
- A Survey on Backbones for Deep Video Action Recognition [7.3390139372713445]
アクション認識はインタラクティブなメタバースを構築する上で重要な技術である。
本稿では,ディープニューラルネットワークに基づく行動認識手法について概説する。
本論文では、RGBビデオフレームと光フローのモダリティを入力として使用する2ストリームネットワークと、異なる動作情報を抽出しながらRGBのモダリティを直接活用する3D畳み込みネットワークと、自然言語処理からコンピュータビジョンや映像理解へモデルを導入するトランスフォーマーベースの手法の3つの部分について紹介する。
論文 参考訳(メタデータ) (2024-05-09T07:20:36Z) - Deep Neural Networks in Video Human Action Recognition: A Review [21.00217656391331]
映像行動認識はコンピュータビジョンの最も基本的なタスクの1つである。
ディープニューラルネットワークは、RGB、RGB-D、光学フローフォーマットなどの画像のようなピクセルレベルの情報を認識するために構築されている。
本稿では,深層ニューラルネットワークの性能が,特徴学習および抽出タスクにおけるほとんどの技術を上回った。
論文 参考訳(メタデータ) (2023-05-25T03:54:41Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - On the Post-hoc Explainability of Deep Echo State Networks for Time
Series Forecasting, Image and Video Classification [63.716247731036745]
エコー状態ネットワークは、主に学習アルゴリズムの単純さと計算効率のために、時間を通じて多くのスターを惹きつけてきた。
本研究では,時間系列,画像,映像データを用いた学習タスクに適用した場合のエコー状態ネットワークの説明可能性について検討した。
本研究では,これらの反復モデルが把握した知識に関する理解可能な情報を抽出する3つの手法を提案する。
論文 参考訳(メタデータ) (2021-02-17T08:56:33Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Context-Aware RCNN: A Baseline for Action Detection in Videos [66.16989365280938]
まず、認識精度がアクターのバウンディングボックスサイズと高い相関関係があることを経験的に見出した。
我々はRCNNを再検討し、アクター周辺の画像パッチをトリミングおよびサイズ変更することでアクター中心のアクション認識を行う。
アクターバウンディングボックスを少し拡張し、コンテキスト機能を融合することで、パフォーマンスをさらに向上できることがわかった。
論文 参考訳(メタデータ) (2020-07-20T03:11:48Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。