論文の概要: Towards Visually Explaining Video Understanding Networks with
Perturbation
- arxiv url: http://arxiv.org/abs/2005.00375v2
- Date: Mon, 9 Nov 2020 15:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 00:14:28.139729
- Title: Towards Visually Explaining Video Understanding Networks with
Perturbation
- Title(参考訳): 摂動を伴う映像理解ネットワークの視覚的説明に向けて
- Authors: Zhenqiang Li, Weimin Wang, Zuoyue Li, Yifei Huang, Yoichi Sato
- Abstract要約: 映像理解ネットワークを視覚的に説明するための汎用摂動法について検討する。
本研究では,空間次元と時間次元の両面において,結果の滑らかさを抑えることによって手法を強化する新しい損失関数を提案する。
- 参考スコア(独自算出の注目度): 26.251944509485714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ''Making black box models explainable'' is a vital problem that accompanies
the development of deep learning networks. For networks taking visual
information as input, one basic but challenging explanation method is to
identify and visualize the input pixels/regions that dominate the network's
prediction. However, most existing works focus on explaining networks taking a
single image as input and do not consider the temporal relationship that exists
in videos. Providing an easy-to-use visual explanation method that is
applicable to diversified structures of video understanding networks still
remains an open challenge. In this paper, we investigate a generic
perturbation-based method for visually explaining video understanding networks.
Besides, we propose a novel loss function to enhance the method by constraining
the smoothness of its results in both spatial and temporal dimensions. The
method enables the comparison of explanation results between different network
structures to become possible and can also avoid generating the pathological
adversarial explanations for video inputs. Experimental comparison results
verified the effectiveness of our method.
- Abstract(参考訳): 「ブラックボックスモデルの説明可能」は深層学習ネットワークの発展に伴う重要な問題である。
視覚情報を入力として取るネットワークでは、ネットワークの予測を支配する入力画素/領域を識別・可視化することが基本だが難解な説明方法である。
しかし、既存の研究の多くは、単一の画像を入力として扱うネットワークの説明に重点を置いており、ビデオに存在する時間的関係を考慮していない。
ビデオ理解ネットワークの多様な構造に適用可能な、使い易いビジュアル説明方法の提供は、いまだに未解決の課題である。
本稿では,映像理解ネットワークを視覚的に説明するための汎用摂動法について検討する。
さらに,空間次元と時間次元の両面において,結果の滑らかさを制限し,その手法を強化する新たな損失関数を提案する。
本手法により,異なるネットワーク構造間の説明結果の比較が可能となり,また,映像入力に対する病理的敵意的説明の発生を回避できる。
実験の結果,本手法の有効性が検証された。
関連論文リスト
- Don't trust your eyes: on the (un)reliability of feature visualizations [25.018840023636546]
自然入力上での通常のネットワーク動作から完全に切り離された任意のパターンを示すために、特徴視覚化をトリックする方法を示す。
次に、標準の無人ネットワークで同様の現象が起こる証拠を提供する。
これは機能ビジュアライゼーションの正当性チェックとして使用できる。
論文 参考訳(メタデータ) (2023-06-07T18:31:39Z) - Shap-CAM: Visual Explanations for Convolutional Neural Networks based on
Shapley Value [86.69600830581912]
クラスアクティベーションマッピングに基づくShap-CAMと呼ばれる新しい視覚的説明法を開発した。
我々は,Shap-CAMが意思決定プロセスの解釈において,より良い視覚的性能と公平性を実現することを実証した。
論文 参考訳(メタデータ) (2022-08-07T00:59:23Z) - Learning with Capsules: A Survey [73.31150426300198]
カプセルネットワークは、オブジェクト中心の表現を学習するための畳み込みニューラルネットワーク(CNN)に代わるアプローチとして提案された。
CNNとは異なり、カプセルネットワークは部分的に階層的な関係を明示的にモデル化するように設計されている。
論文 参考訳(メタデータ) (2022-06-06T15:05:36Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - Spatio-Temporal Perturbations for Video Attribution [33.19422909074655]
この属性法は、不透明なニューラルネットワークを視覚的に解釈するための方向を提供する。
本稿では,多様な映像理解ネットワークに適合する汎用属性法について検討する。
本稿では,新たに提案した信頼度測定によって検証される信頼性のある客観的指標について紹介する。
論文 参考訳(メタデータ) (2021-09-01T07:44:16Z) - On the Post-hoc Explainability of Deep Echo State Networks for Time
Series Forecasting, Image and Video Classification [63.716247731036745]
エコー状態ネットワークは、主に学習アルゴリズムの単純さと計算効率のために、時間を通じて多くのスターを惹きつけてきた。
本研究では,時間系列,画像,映像データを用いた学習タスクに適用した場合のエコー状態ネットワークの説明可能性について検討した。
本研究では,これらの反復モデルが把握した知識に関する理解可能な情報を抽出する3つの手法を提案する。
論文 参考訳(メタデータ) (2021-02-17T08:56:33Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。