論文の概要: Hierarchical Explanations for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2301.00436v3
- Date: Mon, 3 Apr 2023 20:04:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 18:08:29.192745
- Title: Hierarchical Explanations for Video Action Recognition
- Title(参考訳): 映像動作認識のための階層的説明
- Authors: Sadaf Gulshad, Teng Long, Nanne van Noord
- Abstract要約: 本稿では,プロトタイプとクラス間の階層関係を構築するための階層型プロトタイプ記述器(HIPE)を提案する。
HIPEは、入力されたビデオフレームをクラス階層の複数のレベルに分割することで、ビデオアクション分類の推論プロセスを可能にする。
- 参考スコア(独自算出の注目度): 10.47994006685547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To interpret deep neural networks, one main approach is to dissect the visual
input and find the prototypical parts responsible for the classification.
However, existing methods often ignore the hierarchical relationship between
these prototypes, and thus can not explain semantic concepts at both higher
level (e.g., water sports) and lower level (e.g., swimming). In this paper
inspired by human cognition system, we leverage hierarchal information to deal
with uncertainty: When we observe water and human activity, but no definitive
action it can be recognized as the water sports parent class. Only after
observing a person swimming can we definitively refine it to the swimming
action. To this end, we propose HIerarchical Prototype Explainer (HIPE) to
build hierarchical relations between prototypes and classes. HIPE enables a
reasoning process for video action classification by dissecting the input video
frames on multiple levels of the class hierarchy, our method is also applicable
to other video tasks. The faithfulness of our method is verified by reducing
accuracy-explainability trade off on ActivityNet and UCF-101 while providing
multi-level explanations.
- Abstract(参考訳): ディープニューラルネットワークを解釈するには、視覚入力を解剖し、分類の原型的な部分を見つけることが主なアプローチである。
しかし、既存の手法はこれらのプロトタイプ間の階層的関係を無視することが多く、したがってより高いレベル(ウォータースポーツなど)と低いレベル(水泳など)のセマンティック概念を説明できない。
本研究では,人間認知システムに着想を得て,不確実性に対処するために階層的情報を活用する。水と人間の活動を観察しても,決定的な行動は認められない。
水泳を観察した後だけ、私たちはそれを水泳行動に精練することができる。
この目的のために,プロトタイプとクラス間の階層関係を構築するための階層型プロトタイプ記述器 (HIPE) を提案する。
HIPEは、入力されたビデオフレームをクラス階層の複数のレベルに分割することで、ビデオアクション分類の推論プロセスを可能にし、この手法は他のビデオタスクにも適用できる。
本手法の信頼性は,ActivityNet と UCF-101 の精度・説明可能性トレードオフを減らし,マルチレベルな説明を提供することによって検証する。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Generative Action Description Prompts for Skeleton-based Action
Recognition [15.38417530693649]
本稿では,骨格に基づく行動認識のためのGAP(Generative Action-Description Prompts)アプローチを提案する。
本研究では,行動の身体部分の動きのテキスト記述を自動的に生成する知識エンジンとして,事前学習された大規模言語モデルを用いる。
提案手法は,推定コストを伴わずに,様々なベースラインモデルに対して顕著な改善を実現する。
論文 参考訳(メタデータ) (2022-08-10T12:55:56Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - HCIL: Hierarchical Class Incremental Learning for Longline Fishing
Visual Monitoring [30.084499552709183]
我々は,CILシナリオ下での最先端の階層的分類法を大幅に改善する階層的クラスインクリメンタルラーニング(HCIL)モデルを導入する。
CILシステムは、データストリームからより多くのクラスを学習できなければならない。つまり、少数のクラスに対するトレーニングデータのみを最初から用意し、新しいクラスを徐々に追加する必要がある。
論文 参考訳(メタデータ) (2022-02-25T23:53:11Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。