論文の概要: Spatio-Temporal Perturbations for Video Attribution
- arxiv url: http://arxiv.org/abs/2109.00222v1
- Date: Wed, 1 Sep 2021 07:44:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 17:26:35.630577
- Title: Spatio-Temporal Perturbations for Video Attribution
- Title(参考訳): ビデオアトリビューションのための時空間摂動
- Authors: Zhenqiang Li, Weimin Wang, Zuoyue Li, Yifei Huang, Yoichi Sato
- Abstract要約: この属性法は、不透明なニューラルネットワークを視覚的に解釈するための方向を提供する。
本稿では,多様な映像理解ネットワークに適合する汎用属性法について検討する。
本稿では,新たに提案した信頼度測定によって検証される信頼性のある客観的指標について紹介する。
- 参考スコア(独自算出の注目度): 33.19422909074655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The attribution method provides a direction for interpreting opaque neural
networks in a visual way by identifying and visualizing the input
regions/pixels that dominate the output of a network. Regarding the attribution
method for visually explaining video understanding networks, it is challenging
because of the unique spatiotemporal dependencies existing in video inputs and
the special 3D convolutional or recurrent structures of video understanding
networks. However, most existing attribution methods focus on explaining
networks taking a single image as input and a few works specifically devised
for video attribution come short of dealing with diversified structures of
video understanding networks. In this paper, we investigate a generic
perturbation-based attribution method that is compatible with diversified video
understanding networks. Besides, we propose a novel regularization term to
enhance the method by constraining the smoothness of its attribution results in
both spatial and temporal dimensions. In order to assess the effectiveness of
different video attribution methods without relying on manual judgement, we
introduce reliable objective metrics which are checked by a newly proposed
reliability measurement. We verified the effectiveness of our method by both
subjective and objective evaluation and comparison with multiple significant
attribution methods.
- Abstract(参考訳): ネットワークの出力を支配する入力領域/画素を特定し、視覚化することにより、不透明なニューラルネットワークを視覚的に解釈する方向を提供する。
映像理解ネットワークを視覚的に説明するための属性法は,映像入力に特有の時空間的依存関係と,映像理解ネットワークの特別な3次元畳み込み構造や再帰構造により困難である。
しかし、既存の属性手法の多くは、1つのイメージを入力として扱うネットワークの説明に重点を置いており、ビデオアトリビューション用に特別に考案されたいくつかの研究は、ビデオ理解ネットワークの多様な構造を扱うには不足している。
本稿では,多様な映像理解ネットワークに適合する汎用摂動型帰属法について検討する。
さらに,空間次元と時間次元の両面における帰属関係の滑らかさを抑えることで手法を強化する新たな正規化項を提案する。
手動による判断を頼らずに様々なビデオ帰属手法の有効性を評価するために,新たに提案された信頼性測定によって検証される信頼性の高い客観的指標を導入する。
本手法の有効性を主観的および客観的な評価と,複数の有意な帰属法との比較により検証した。
関連論文リスト
- Shap-CAM: Visual Explanations for Convolutional Neural Networks based on
Shapley Value [86.69600830581912]
クラスアクティベーションマッピングに基づくShap-CAMと呼ばれる新しい視覚的説明法を開発した。
我々は,Shap-CAMが意思決定プロセスの解釈において,より良い視覚的性能と公平性を実現することを実証した。
論文 参考訳(メタデータ) (2022-08-07T00:59:23Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Self-Supervised Video Representation Learning by Video Incoherence
Detection [28.540645395066434]
本稿では,ビデオ表現学習における非コヒーレンス検出を利用した自己教師方式を提案する。
人間の視覚系は、ビデオの包括的理解に基づいて、容易にビデオの不整合を識別できるという観察に根ざしている。
論文 参考訳(メタデータ) (2021-09-26T04:58:13Z) - Recurrent Neural Networks for video object detection [0.0]
この研究は異なる方法、特にビデオ内のオブジェクトを検出するためにリカレントニューラルネットワークを使用するものを比較する。
我々は,異なるフレームの特徴マップをリカレントユニットに供給する特徴ベース手法と,リカレントユニットにクラス確率を持つバウンディングボックスをリカレントユニットに供給するボックスレベル手法と,フローネットワークを使用するメソッドとを区別する。
論文 参考訳(メタデータ) (2020-10-29T16:40:10Z) - Self-supervised Video Representation Learning by Pace Prediction [48.029602040786685]
本稿では,ビデオペース予測による自己指導型映像表現学習の課題に対処する。
人間の視覚系がビデオのペースに敏感であるという観察に由来する。
我々は、異なるペースでトレーニングクリップをランダムにサンプリングし、ニューラルネットワークに各ビデオクリップのペースを特定するよう依頼する。
論文 参考訳(メタデータ) (2020-08-13T12:40:24Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Towards Visually Explaining Video Understanding Networks with
Perturbation [26.251944509485714]
映像理解ネットワークを視覚的に説明するための汎用摂動法について検討する。
本研究では,空間次元と時間次元の両面において,結果の滑らかさを抑えることによって手法を強化する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2020-05-01T13:41:38Z) - Assessing the Reliability of Visual Explanations of Deep Models with
Adversarial Perturbations [15.067369314723958]
本稿では,深層モデルの説明の信頼性を評価するための客観的尺度を提案する。
提案手法は,入力画像の逆方向の摂動によるネットワーク結果の変化に基づく。
我々はまた,本質的な説明を損なうことなく,より解釈可能な地図を創出し,関連性マップのクリーン化へのアプローチの直接的な適用を提案する。
論文 参考訳(メタデータ) (2020-04-22T19:57:34Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。