論文の概要: Explaining Motion Relevance for Activity Recognition in Video Deep
Learning Models
- arxiv url: http://arxiv.org/abs/2003.14285v1
- Date: Tue, 31 Mar 2020 15:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:29:34.677947
- Title: Explaining Motion Relevance for Activity Recognition in Video Deep
Learning Models
- Title(参考訳): ビデオ深層学習モデルにおける行動認識における動きの関連性の解明
- Authors: Liam Hiley and Alun Preece and Yulia Hicks and Supriyo Chakraborty and
Prudhvi Gurram and Richard Tomsett
- Abstract要約: 動作認識タスクにおける3次元畳み込みニューラルネットワークモデルの解釈可能性に、説明可能性技術の小さなサブセットが適用されている。
本研究では,2次元説明手法を応用し,動作特異的な説明を提供するための選択的関連性手法を提案する。
提案手法は,モデル決定における動作が果たす役割についての洞察を与えるだけでなく,モデルの空間的偏見を明らかにし,定量化することで,人間の消費に関する説明を単純化する。
- 参考スコア(独自算出の注目度): 12.807049446839507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A small subset of explainability techniques developed initially for image
recognition models has recently been applied for interpretability of 3D
Convolutional Neural Network models in activity recognition tasks. Much like
the models themselves, the techniques require little or no modification to be
compatible with 3D inputs. However, these explanation techniques regard spatial
and temporal information jointly. Therefore, using such explanation techniques,
a user cannot explicitly distinguish the role of motion in a 3D model's
decision. In fact, it has been shown that these models do not appropriately
factor motion information into their decision. We propose a selective relevance
method for adapting the 2D explanation techniques to provide motion-specific
explanations, better aligning them with the human understanding of motion as
conceptually separate from static spatial features. We demonstrate the utility
of our method in conjunction with several widely-used 2D explanation methods,
and show that it improves explanation selectivity for motion. Our results show
that the selective relevance method can not only provide insight on the role
played by motion in the model's decision -- in effect, revealing and
quantifying the model's spatial bias -- but the method also simplifies the
resulting explanations for human consumption.
- Abstract(参考訳): 画像認識モデルのために最初に開発された説明可能性技術の小さなサブセットは、最近3次元畳み込みニューラルネットワークモデルの動作認識タスクの解釈可能性に応用されている。
モデルそのものと同様に、3Dインプットと互換性のある変更はほとんど、あるいは全く必要としない。
しかし、これらの説明手法は、空間情報と時間情報を共同で扱う。
したがって、このような説明手法を用いることで、ユーザは3Dモデル決定における動作の役割を明確に区別することはできない。
実際、これらのモデルが適切な動き情報を決定に反映しないことが示されている。
静的な空間的特徴から概念的に分離した動きの人間的理解とよりよく一致させるため,2次元的な説明手法を適応させる選択的関連法を提案する。
提案手法は, 広範に使われている2次元説明手法と併用し, 動作に対する説明選択性の向上を示す。
提案手法は,モデル決定における動作が果たす役割についての洞察を与えるだけでなく,モデルの空間的偏見を明らかにし,定量化することで,人間の消費に関する説明を単純化する。
関連論文リスト
- Local Agnostic Video Explanations: a Study on the Applicability of
Removal-Based Explanations to Video [0.6906005491572401]
ビデオ領域における局所的な説明のための統一的なフレームワークを提案する。
コントリビューションには,(1)コンピュータビジョンデータに適したきめ細かい説明フレームワークの拡張,(2)既存の6つの説明手法をビデオデータに適応させること,(3)適応された説明手法の評価と比較を行う。
論文 参考訳(メタデータ) (2024-01-22T09:53:20Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - Learning Scene Flow With Skeleton Guidance For 3D Action Recognition [1.5954459915735735]
本研究は3次元行動認識のための深部時間モデルによる3次元フローシーケンスの利用を実証する。
また、最も識別性の高い運動力学を学ぶために、拡張された深部骨格も導入されている。
高次クロスモーダル相関を学習する2つのモデルの間には,後期融合方式が採用されている。
論文 参考訳(メタデータ) (2023-06-23T04:14:25Z) - OCTET: Object-aware Counterfactual Explanations [29.532969342297086]
対物的説明生成のためのオブジェクト指向フレームワークを提案する。
近年のジェネレーティブ・モデリングの成果に触発された本手法では,オブジェクトレベルの操作を容易にするために,クエリイメージを潜在空間に符号化する。
そこで本研究では,シーンを駆動する反実的説明ベンチマークの一連の実験を行い,本手法が分類を超えて適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-22T16:23:12Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Gradient Frequency Modulation for Visually Explaining Video
Understanding Models [39.70146574042422]
本稿では、周波数に基づく極端摂動(FEP)を提案し、映像理解モデルの意思決定を説明する。
FEPが提供する実験は、既存の最先端の手法と比較して、モデルの決定をより忠実に表現できることを示している。
論文 参考訳(メタデータ) (2021-11-01T19:07:58Z) - HuMoR: 3D Human Motion Model for Robust Pose Estimation [100.55369985297797]
HuMoRは、時間的ポーズと形状のロバスト推定のための3Dヒューマンモーションモデルです。
モーションシーケンスの各ステップにおけるポーズの変化の分布を学習する条件付き変分オートエンコーダについて紹介する。
本モデルが大規模モーションキャプチャーデータセットのトレーニング後に多様な動きや体型に一般化することを示す。
論文 参考訳(メタデータ) (2021-05-10T21:04:55Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition [10.185425416255294]
そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。
また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
論文 参考訳(メタデータ) (2020-08-03T17:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。