論文の概要: Gradient Frequency Modulation for Visually Explaining Video
Understanding Models
- arxiv url: http://arxiv.org/abs/2111.01215v1
- Date: Mon, 1 Nov 2021 19:07:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 14:10:08.475042
- Title: Gradient Frequency Modulation for Visually Explaining Video
Understanding Models
- Title(参考訳): 映像理解モデルのための勾配周波数変調
- Authors: Xinmiao Lin, Wentao Bao, Matthew Wright, Yu Kong
- Abstract要約: 本稿では、周波数に基づく極端摂動(FEP)を提案し、映像理解モデルの意思決定を説明する。
FEPが提供する実験は、既存の最先端の手法と比較して、モデルの決定をより忠実に表現できることを示している。
- 参考スコア(独自算出の注目度): 39.70146574042422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many applications, it is essential to understand why a machine learning
model makes the decisions it does, but this is inhibited by the black-box
nature of state-of-the-art neural networks. Because of this, increasing
attention has been paid to explainability in deep learning, including in the
area of video understanding. Due to the temporal dimension of video data, the
main challenge of explaining a video action recognition model is to produce
spatiotemporally consistent visual explanations, which has been ignored in the
existing literature. In this paper, we propose Frequency-based Extremal
Perturbation (F-EP) to explain a video understanding model's decisions. Because
the explanations given by perturbation methods are noisy and non-smooth both
spatially and temporally, we propose to modulate the frequencies of gradient
maps from the neural network model with a Discrete Cosine Transform (DCT). We
show in a range of experiments that F-EP provides more spatiotemporally
consistent explanations that more faithfully represent the model's decisions
compared to the existing state-of-the-art methods.
- Abstract(参考訳): 多くのアプリケーションでは、なぜ機械学習モデルが意思決定を行うのかを理解することが不可欠であるが、これは最先端のニューラルネットワークのブラックボックスの性質によって阻害されている。
このため、ビデオ理解の分野を含む深層学習における説明可能性に注目が集まっている。
映像データの時間的次元から,映像行動認識モデルを説明する主な課題は,既存の文献では無視されている時空間的に一貫した視覚説明を作ることである。
本稿では,映像理解モデルの意思決定を説明するために,周波数ベース極値摂動(f-ep)を提案する。
摂動法によって与えられる説明は、空間的・時間的にともにノイズと非スムースであるため、離散コサイン変換(dct)を用いてニューラルネットワークモデルから勾配写像の周波数を変調する。
実験では,f-ep がモデルの意思決定をより忠実に表現する時空間的一貫性のある説明を提供することを示す。
関連論文リスト
- Model-based learning for multi-antenna multi-frequency location-to-channel mapping [6.067275317776295]
Inlicit Neural Representationの文献によると、古典的ニューラルネットワークアーキテクチャは低周波の内容の学習に偏っている。
本稿では、モデルに基づく機械学習パラダイムを利用して、伝搬チャネルモデルから問題固有のニューラルアーキテクチャを導出する。
論文 参考訳(メタデータ) (2024-06-17T13:09:25Z) - CNN-based explanation ensembling for dataset, representation and explanations evaluation [1.1060425537315088]
畳み込みモデルを用いた深層分類モデルによる説明文の要約の可能性について検討する。
実験と分析を通じて、モデル行動のより一貫性と信頼性のあるパターンを明らかにするために、説明を組み合わせることの意味を明らかにすることを目的とする。
論文 参考訳(メタデータ) (2024-04-16T08:39:29Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Learning with Explanation Constraints [91.23736536228485]
我々は、説明がモデルの学習をどのように改善するかを分析するための学習理論フレームワークを提供する。
我々は,多数の合成および実世界の実験に対して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T15:06:47Z) - This looks more like that: Enhancing Self-Explaining Models by
Prototypical Relevance Propagation [17.485732906337507]
本稿では,自己説明型ネットワークであるProtoPNetのアーティファクトのスペクトルの存在下でのケーススタディを示す。
より正確なモデル認識説明を生成するための新しい手法を提案する。
クリーンなデータセットを得るために,アーティファクト画像を分離するためのマルチビュークラスタリング戦略を提案する。
論文 参考訳(メタデータ) (2021-08-27T09:55:53Z) - Beyond Trivial Counterfactual Explanations with Diverse Valuable
Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。
本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。
このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文 参考訳(メタデータ) (2021-03-18T12:57:34Z) - On the Post-hoc Explainability of Deep Echo State Networks for Time
Series Forecasting, Image and Video Classification [63.716247731036745]
エコー状態ネットワークは、主に学習アルゴリズムの単純さと計算効率のために、時間を通じて多くのスターを惹きつけてきた。
本研究では,時間系列,画像,映像データを用いた学習タスクに適用した場合のエコー状態ネットワークの説明可能性について検討した。
本研究では,これらの反復モデルが把握した知識に関する理解可能な情報を抽出する3つの手法を提案する。
論文 参考訳(メタデータ) (2021-02-17T08:56:33Z) - Explaining Motion Relevance for Activity Recognition in Video Deep
Learning Models [12.807049446839507]
動作認識タスクにおける3次元畳み込みニューラルネットワークモデルの解釈可能性に、説明可能性技術の小さなサブセットが適用されている。
本研究では,2次元説明手法を応用し,動作特異的な説明を提供するための選択的関連性手法を提案する。
提案手法は,モデル決定における動作が果たす役割についての洞察を与えるだけでなく,モデルの空間的偏見を明らかにし,定量化することで,人間の消費に関する説明を単純化する。
論文 参考訳(メタデータ) (2020-03-31T15:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。