論文の概要: Explaining Motion Relevance for Activity Recognition in Video Deep
Learning Models
- arxiv url: http://arxiv.org/abs/2003.14285v1
- Date: Tue, 31 Mar 2020 15:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 00:29:34.677947
- Title: Explaining Motion Relevance for Activity Recognition in Video Deep
Learning Models
- Title(参考訳): ビデオ深層学習モデルにおける行動認識における動きの関連性の解明
- Authors: Liam Hiley and Alun Preece and Yulia Hicks and Supriyo Chakraborty and
Prudhvi Gurram and Richard Tomsett
- Abstract要約: 動作認識タスクにおける3次元畳み込みニューラルネットワークモデルの解釈可能性に、説明可能性技術の小さなサブセットが適用されている。
本研究では,2次元説明手法を応用し,動作特異的な説明を提供するための選択的関連性手法を提案する。
提案手法は,モデル決定における動作が果たす役割についての洞察を与えるだけでなく,モデルの空間的偏見を明らかにし,定量化することで,人間の消費に関する説明を単純化する。
- 参考スコア(独自算出の注目度): 12.807049446839507
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A small subset of explainability techniques developed initially for image
recognition models has recently been applied for interpretability of 3D
Convolutional Neural Network models in activity recognition tasks. Much like
the models themselves, the techniques require little or no modification to be
compatible with 3D inputs. However, these explanation techniques regard spatial
and temporal information jointly. Therefore, using such explanation techniques,
a user cannot explicitly distinguish the role of motion in a 3D model's
decision. In fact, it has been shown that these models do not appropriately
factor motion information into their decision. We propose a selective relevance
method for adapting the 2D explanation techniques to provide motion-specific
explanations, better aligning them with the human understanding of motion as
conceptually separate from static spatial features. We demonstrate the utility
of our method in conjunction with several widely-used 2D explanation methods,
and show that it improves explanation selectivity for motion. Our results show
that the selective relevance method can not only provide insight on the role
played by motion in the model's decision -- in effect, revealing and
quantifying the model's spatial bias -- but the method also simplifies the
resulting explanations for human consumption.
- Abstract(参考訳): 画像認識モデルのために最初に開発された説明可能性技術の小さなサブセットは、最近3次元畳み込みニューラルネットワークモデルの動作認識タスクの解釈可能性に応用されている。
モデルそのものと同様に、3Dインプットと互換性のある変更はほとんど、あるいは全く必要としない。
しかし、これらの説明手法は、空間情報と時間情報を共同で扱う。
したがって、このような説明手法を用いることで、ユーザは3Dモデル決定における動作の役割を明確に区別することはできない。
実際、これらのモデルが適切な動き情報を決定に反映しないことが示されている。
静的な空間的特徴から概念的に分離した動きの人間的理解とよりよく一致させるため,2次元的な説明手法を適応させる選択的関連法を提案する。
提案手法は, 広範に使われている2次元説明手法と併用し, 動作に対する説明選択性の向上を示す。
提案手法は,モデル決定における動作が果たす役割についての洞察を与えるだけでなく,モデルの空間的偏見を明らかにし,定量化することで,人間の消費に関する説明を単純化する。
関連論文リスト
- Champ: Controllable and Consistent Human Image Animation with 3D Parametric Guidance [25.346255905155424]
本稿では,潜伏拡散フレームワーク内での3次元人間のパラメトリックモデルを活用することで,人間の画像アニメーションの方法論を提案する。
人間の3次元パラメトリックモデルを動作誘導として表現することにより、基準画像と音源映像の動きの間に人体のパラメトリック形状アライメントを行うことができる。
提案手法は,提案した組込みデータセットに対して,より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-03-21T18:52:58Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Unsupervised 3D Pose Estimation with Non-Rigid Structure-from-Motion
Modeling [83.76377808476039]
本研究では,人間のポーズの変形をモデル化し,それに伴う拡散に基づく動きを事前に設計する手法を提案する。
動作中の3次元人間の骨格を復元する作業は3次元基準骨格の推定に分割する。
混合時空間NASfMformerを用いて、各フレームの3次元基準骨格と骨格変形を2次元観測シーケンスから同時に推定する。
論文 参考訳(メタデータ) (2023-08-18T16:41:57Z) - Learning Scene Flow With Skeleton Guidance For 3D Action Recognition [1.5954459915735735]
本研究は3次元行動認識のための深部時間モデルによる3次元フローシーケンスの利用を実証する。
また、最も識別性の高い運動力学を学ぶために、拡張された深部骨格も導入されている。
高次クロスモーダル相関を学習する2つのモデルの間には,後期融合方式が採用されている。
論文 参考訳(メタデータ) (2023-06-23T04:14:25Z) - OCTET: Object-aware Counterfactual Explanations [29.532969342297086]
対物的説明生成のためのオブジェクト指向フレームワークを提案する。
近年のジェネレーティブ・モデリングの成果に触発された本手法では,オブジェクトレベルの操作を容易にするために,クエリイメージを潜在空間に符号化する。
そこで本研究では,シーンを駆動する反実的説明ベンチマークの一連の実験を行い,本手法が分類を超えて適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-22T16:23:12Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Gradient Frequency Modulation for Visually Explaining Video
Understanding Models [39.70146574042422]
本稿では、周波数に基づく極端摂動(FEP)を提案し、映像理解モデルの意思決定を説明する。
FEPが提供する実験は、既存の最先端の手法と比較して、モデルの決定をより忠実に表現できることを示している。
論文 参考訳(メタデータ) (2021-11-01T19:07:58Z) - HuMoR: 3D Human Motion Model for Robust Pose Estimation [100.55369985297797]
HuMoRは、時間的ポーズと形状のロバスト推定のための3Dヒューマンモーションモデルです。
モーションシーケンスの各ステップにおけるポーズの変化の分布を学習する条件付き変分オートエンコーダについて紹介する。
本モデルが大規模モーションキャプチャーデータセットのトレーニング後に多様な動きや体型に一般化することを示す。
論文 参考訳(メタデータ) (2021-05-10T21:04:55Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Residual Frames with Efficient Pseudo-3D CNN for Human Action
Recognition [10.185425416255294]
そこで我々は,残余フレームを代替の「軽量」運動表現として用いることを提案する。
また、3D畳み込みを2Dと1D畳み込みに分離する新しい擬似3D畳み込みモジュールを開発した。
論文 参考訳(メタデータ) (2020-08-03T17:40:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。