論文の概要: Hierarchical Explanations for Video Action Recognition
- arxiv url: http://arxiv.org/abs/2301.00436v2
- Date: Wed, 4 Jan 2023 23:32:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 13:07:44.515728
- Title: Hierarchical Explanations for Video Action Recognition
- Title(参考訳): 映像動作認識のための階層的説明
- Authors: Sadaf Gulshad, Teng Long, Nanne van Noord
- Abstract要約: Hierarchical ProtoPNetは、クラス間の階層的関係を考慮し、その推論プロセスを説明する解釈可能なネットワークである。
ActivityNetとUCF-101の実験では、マルチレベルな説明を提供しながら、パフォーマンスが改善された。
- 参考スコア(独自算出の注目度): 10.47994006685547
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Hierarchical ProtoPNet: an interpretable network that explains its
reasoning process by considering the hierarchical relationship between classes.
Different from previous methods that explain their reasoning process by
dissecting the input image and finding the prototypical parts responsible for
the classification, we propose to explain the reasoning process for video
action classification by dissecting the input video frames on multiple levels
of the class hierarchy. The explanations leverage the hierarchy to deal with
uncertainty, akin to human reasoning: When we observe water and human activity,
but no definitive action it can be recognized as the water sports parent class.
Only after observing a person swimming can we definitively refine it to the
swimming action. Experiments on ActivityNet and UCF-101 show performance
improvements while providing multi-level explanations.
- Abstract(参考訳): 階層型 ProtoPNet:クラス間の階層的関係を考慮し,その推論過程を説明する解釈可能なネットワークを提案する。
入力画像の解剖と分類の原型的部分の検索による推論過程を説明する従来の方法と異なり,入力された映像フレームをクラス階層の多レベルに分類することにより,ビデオアクション分類の推論過程を説明することを提案する。
水と人間の活動を観察する時、決定的な行動は起こらないが、水スポーツの親クラスとして認識することができる。
水泳を観察した後だけ、私たちはそれを水泳行動に精練することができる。
ActivityNetとUCF-101の実験では、マルチレベルな説明を提供しながら、パフォーマンスが改善された。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Generative Action Description Prompts for Skeleton-based Action
Recognition [15.38417530693649]
本稿では,骨格に基づく行動認識のためのGAP(Generative Action-Description Prompts)アプローチを提案する。
本研究では,行動の身体部分の動きのテキスト記述を自動的に生成する知識エンジンとして,事前学習された大規模言語モデルを用いる。
提案手法は,推定コストを伴わずに,様々なベースラインモデルに対して顕著な改善を実現する。
論文 参考訳(メタデータ) (2022-08-10T12:55:56Z) - Bridge-Prompt: Towards Ordinal Action Understanding in Instructional
Videos [92.18898962396042]
本稿では,隣接するアクション間のセマンティクスをモデル化する,プロンプトベースのフレームワークであるBridge-Promptを提案する。
我々は個々のアクションラベルを、個々のアクションセマンティクスのギャップを埋める監視のための統合テキストプロンプトとして再構成する。
Br-Promptは複数のベンチマークで最先端を達成する。
論文 参考訳(メタデータ) (2022-03-26T15:52:27Z) - Part-level Action Parsing via a Pose-guided Coarse-to-Fine Framework [108.70949305791201]
パートレベルのアクションパーシング(PAP)は、ビデオレベルのアクションを予測するだけでなく、ビデオ内の各人に対するフレームレベルのきめ細かいアクションやインタラクションを認識することを目的としている。
特に,本フレームワークは,まず入力ビデオの映像レベルのクラスを予測し,次に身体部位をローカライズし,部分レベルの動作を予測する。
我々のフレームワークは最先端のパフォーマンスを達成し、既存の手法を31.10%のROCスコアで上回ります。
論文 参考訳(メタデータ) (2022-03-09T01:30:57Z) - HCIL: Hierarchical Class Incremental Learning for Longline Fishing
Visual Monitoring [30.084499552709183]
我々は,CILシナリオ下での最先端の階層的分類法を大幅に改善する階層的クラスインクリメンタルラーニング(HCIL)モデルを導入する。
CILシステムは、データストリームからより多くのクラスを学習できなければならない。つまり、少数のクラスに対するトレーニングデータのみを最初から用意し、新しいクラスを徐々に追加する必要がある。
論文 参考訳(メタデータ) (2022-02-25T23:53:11Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z) - FineGym: A Hierarchical Video Dataset for Fine-grained Action
Understanding [118.32912239230272]
FineGymは体操ビデオの上に構築された新しいアクション認識データセットだ。
アクションレベルとサブアクションレベルの両方で3レベルのセマンティック階層を持つテンポラリアノテーションを提供する。
この新たな粒度レベルは、行動認識に重大な課題をもたらす。
論文 参考訳(メタデータ) (2020-04-14T17:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。