論文の概要: ST-ABN: Visual Explanation Taking into Account Spatio-temporal
Information for Video Recognition
- arxiv url: http://arxiv.org/abs/2110.15574v1
- Date: Fri, 29 Oct 2021 06:40:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-01 14:33:22.892548
- Title: ST-ABN: Visual Explanation Taking into Account Spatio-temporal
Information for Video Recognition
- Title(参考訳): ST-ABN:ビデオ認識のための時空間情報を考慮したビジュアル説明
- Authors: Masahiro Mitsuhara, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu
Fujiyoshi
- Abstract要約: ディープニューラルネットワークの推論プロセスにおける意思決定の解釈は困難である。
視覚的説明は、ディープラーニングの意思決定を解釈する1つの方法である。
ビデオ認識のための時間的注意分枝ネットワーク(ST-ABN)と呼ばれる視覚的説明法を提案する。
- 参考スコア(独自算出の注目度): 10.376590832489484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is difficult for people to interpret the decision-making in the inference
process of deep neural networks. Visual explanation is one method for
interpreting the decision-making of deep learning. It analyzes the
decision-making of 2D CNNs by visualizing an attention map that highlights
discriminative regions. Visual explanation for interpreting the decision-making
process in video recognition is more difficult because it is necessary to
consider not only spatial but also temporal information, which is different
from the case of still images. In this paper, we propose a visual explanation
method called spatio-temporal attention branch network (ST-ABN) for video
recognition. It enables visual explanation for both spatial and temporal
information. ST-ABN acquires the importance of spatial and temporal information
during network inference and applies it to recognition processing to improve
recognition performance and visual explainability. Experimental results with
Something-Something datasets V1 \& V2 demonstrated that ST-ABN enables visual
explanation that takes into account spatial and temporal information
simultaneously and improves recognition performance.
- Abstract(参考訳): ディープニューラルネットワークの推論プロセスにおいて、意思決定を解釈することは困難である。
視覚的説明は、ディープラーニングの意思決定を解釈する1つの方法である。
識別領域に注目する注目マップを可視化することにより,2次元CNNの意思決定を解析する。
映像認識における意思決定過程の視覚的説明は、静止画像と異なる空間的情報だけでなく時間的情報も考慮する必要があるため、より困難である。
本稿では,ビデオ認識のための時空間注意分岐ネットワーク(ST-ABN)と呼ばれる視覚的説明手法を提案する。
空間情報と時間情報の両方を視覚的に説明できる。
st-abnは、ネットワーク推論中に空間情報と時間情報の重要性を取得し、認識処理に適用し、認識性能と視覚的説明性を向上させる。
Some-Something データセット V1 \& V2 による実験の結果,ST-ABN は空間情報と時間情報を同時に考慮した視覚的説明が可能であり,認識性能が向上することが示された。
関連論文リスト
- Exploring Explainability in Video Action Recognition [5.7782784592048575]
ビデオ行動認識と画像分類はコンピュータビジョンの基本課題である。
Video-TCAVは、ビデオ行動認識モデルの意思決定プロセスにおいて、特定の概念の重要性を定量化することを目的としている。
本稿では,ビデオ-TCAVテストにおいて,映像行動認識に関連する空間的・時間的概念を生成するための機械支援手法を提案する。
論文 参考訳(メタデータ) (2024-04-13T19:34:14Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Information Bottleneck Approach to Spatial Attention Learning [21.083618550304703]
人間の視覚システム(HVS)における選択的な視覚的注意機構は、自然のシーンを認識するための視覚的認識に到達するための情報の量を制限する。
このような選択性は、情報圧縮と予測精度のトレードオフを求める「情報ボトルネック(IB)」として機能する。
視覚認識のために構築されたディープニューラルネットワーク(DNN)のためのIBインスパイアされた空間アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-07T10:35:32Z) - SSAN: Separable Self-Attention Network for Video Representation Learning [11.542048296046524]
本稿では,空間的および時間的相関を逐次モデル化する分離型自己アテンションモジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
提案手法は,Something と Kinetics-400 データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-05-27T10:02:04Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - Towards Visually Explaining Video Understanding Networks with
Perturbation [26.251944509485714]
映像理解ネットワークを視覚的に説明するための汎用摂動法について検討する。
本研究では,空間次元と時間次元の両面において,結果の滑らかさを抑えることによって手法を強化する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2020-05-01T13:41:38Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。