論文の概要: Visually explaining 3D-CNN predictions for video classification with an
adaptive occlusion sensitivity analysis
- arxiv url: http://arxiv.org/abs/2207.12859v1
- Date: Tue, 26 Jul 2022 12:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:54:27.728620
- Title: Visually explaining 3D-CNN predictions for video classification with an
adaptive occlusion sensitivity analysis
- Title(参考訳): 適応オクルージョン感度解析による映像分類のための3D-CNN予測の視覚的説明
- Authors: Tomoki Uchiyama, Naoya Sogi, Koichiro Niinuma, Kazuhiro Fukui
- Abstract要約: 本稿では,3次元畳み込みニューラルネットワーク(CNN)の意思決定過程を視覚的に説明するための手法を提案する。
ここでのキーとなる考え方は、入力された3D空間空間内の3Dマスクによって特定の量のデータを取り除き、出力スコアの変化度を測定することである。
- 参考スコア(独自算出の注目度): 11.413676412192052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a method for visually explaining the decision-making
process of 3D convolutional neural networks (CNN) with a temporal extension of
occlusion sensitivity analysis. The key idea here is to occlude a specific
volume of data by a 3D mask in an input 3D temporal-spatial data space and then
measure the change degree in the output score. The occluded volume data that
produces a larger change degree is regarded as a more critical element for
classification. However, while the occlusion sensitivity analysis is commonly
used to analyze single image classification, it is not so straightforward to
apply this idea to video classification as a simple fixed cuboid cannot deal
with the motions. To this end, we adapt the shape of a 3D occlusion mask to
complicated motions of target objects. Our flexible mask adaptation is
performed by considering the temporal continuity and spatial co-occurrence of
the optical flows extracted from the input video data. We further propose to
approximate our method by using the first-order partial derivative of the score
with respect to an input image to reduce its computational cost. We demonstrate
the effectiveness of our method through various and extensive comparisons with
the conventional methods in terms of the deletion/insertion metric and the
pointing metric on the UCF-101. The code is available at:
https://github.com/uchiyama33/AOSA.
- Abstract(参考訳): 本稿では,3次元畳み込みニューラルネットワーク (CNN) の決定過程を時間的拡張したオクルージョン感度解析により視覚的に説明する方法を提案する。
ここでの鍵となるアイデアは、入力された3d時間空間データ空間に、3dマスクで特定の量のデータを占有し、出力スコアの変化度を測定することである。
より大きな変化度を生成する排他的ボリュームデータは、分類においてより重要な要素とみなされる。
しかし、オクルージョン感度解析は単一の画像分類を解析するために一般的に用いられるが、単純な固定された立方体としてビデオ分類に適用するのは簡単ではない。
この目的のために,3次元閉塞マスクの形状を対象物体の複雑な動きに適応させる。
入力映像データから抽出した光フローの時間的連続性と空間的共起性を考慮したフレキシブルマスク適応を行う。
さらに,入力画像に対するスコアの1次偏微分を用いて計算コストを削減し,本手法を近似する。
提案手法の有効性を,UCF-101における削除/挿入距離とポインティング距離の観点から,従来手法との比較により検証した。
コードは、https://github.com/uchiyama33/AOSAで入手できる。
関連論文リスト
- NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows [60.291277312569285]
本研究では,単一観測値に基づいてNeRF表現を自動的に修正する手法を提案する。
本手法は, 変形を3次元流れ, 特に剛性変換の重み付き線形ブレンディングとして定義する。
また,単一観測によるNeRFシーンの修正問題を探索するための新しいデータセットも導入した。
論文 参考訳(メタデータ) (2024-06-15T07:58:08Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Match and Locate: low-frequency monocular odometry based on deep feature
matching [0.65268245109828]
本稿では,1台のカメラしか必要としないロボットオドメトリーの新たなアプローチを提案する。
アプローチは、深い特徴マッチングモデルを用いて、ビデオストリームの連続フレーム間の画像特徴のマッチングに基づいている。
本研究では,AISG-SLAビジュアルローカライゼーションチャレンジにおける手法の性能評価を行い,計算効率が高く,実装が容易であるにもかかわらず,競合する結果が得られた。
論文 参考訳(メタデータ) (2023-11-16T17:32:58Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Mixed Reality Depth Contour Occlusion Using Binocular Similarity
Matching and Three-dimensional Contour Optimisation [3.9692358105634384]
混合現実のアプリケーションは、現実のオブジェクトによって部分的に隠された仮想オブジェクトを必要とすることが多い。
従来の研究や商業製品は、性能と効率の面で制限があった。
論文 参考訳(メタデータ) (2022-03-04T13:16:40Z) - Weakly Supervised Instance Segmentation using Motion Information via
Optical Flow [3.0763099528432263]
画像と光の流れから抽出した外観と運動の特徴を利用する2ストリームエンコーダを提案する。
提案手法は,最先端手法の平均精度を3.1倍に向上することを示した。
論文 参考訳(メタデータ) (2022-02-25T22:41:54Z) - SiamPolar: Semi-supervised Realtime Video Object Segmentation with Polar
Representation [6.108508667949229]
そこで我々は,新しい極性表現を用いたシームズネットワークに基づく半教師付きリアルタイム手法を提案する。
極性表現は、微妙な精度の損失でマスクを符号化するためのパラメータを減らすことができる。
また、異なる空間スケールから特徴を抽出するために、非対称シャイムネットワークも開発されている。
論文 参考訳(メタデータ) (2021-10-27T21:10:18Z) - Weakly-supervised Learning For Catheter Segmentation in 3D Frustum
Ultrasound [74.22397862400177]
超音波を用いた新しいカテーテルセグメンテーション法を提案する。
提案手法は,1ボリュームあたり0.25秒の効率で最先端の性能を実現した。
論文 参考訳(メタデータ) (2020-10-19T13:56:22Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。