論文の概要: Adaptive occlusion sensitivity analysis for visually explaining video
recognition networks
- arxiv url: http://arxiv.org/abs/2207.12859v2
- Date: Thu, 17 Aug 2023 08:36:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 01:26:54.696788
- Title: Adaptive occlusion sensitivity analysis for visually explaining video
recognition networks
- Title(参考訳): 映像認識ネットワークの視覚的説明のための適応オクルージョン感度解析
- Authors: Tomoki Uchiyama, Naoya Sogi, Satoshi Iizuka, Koichiro Niinuma,
Kazuhiro Fukui
- Abstract要約: 咬合感度分析は、単一画像分類の分析に一般的に用いられる。
本稿では,映像認識ネットワークの意思決定過程を視覚的に説明するための手法を提案する。
- 参考スコア(独自算出の注目度): 12.75077781554099
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a method for visually explaining the decision-making
process of video recognition networks with a temporal extension of occlusion
sensitivity analysis, called Adaptive Occlusion Sensitivity Analysis (AOSA).
The key idea here is to occlude a specific volume of data by a 3D mask in an
input 3D temporal-spatial data space and then measure the change degree in the
output score. The occluded volume data that produces a larger change degree is
regarded as a more critical element for classification. However, while the
occlusion sensitivity analysis is commonly used to analyze single image
classification, applying this idea to video classification is not so
straightforward as a simple fixed cuboid cannot deal with complicated motions.
To solve this issue, we adaptively set the shape of a 3D occlusion mask while
referring to motions. Our flexible mask adaptation is performed by considering
the temporal continuity and spatial co-occurrence of the optical flows
extracted from the input video data. We further propose a novel method to
reduce the computational cost of the proposed method with the first-order
approximation of the output score with respect to an input video. We
demonstrate the effectiveness of our method through various and extensive
comparisons with the conventional methods in terms of the deletion/insertion
metric and the pointing metric on the UCF101 dataset and the Kinetics-400 and
700 datasets.
- Abstract(参考訳): 本稿では,AOSA(Adaptive Occlusion Sensitivity Analysis)と呼ばれる,オクルージョン感度分析の時間的拡張による映像認識ネットワークの決定過程を視覚的に説明する手法を提案する。
ここでの鍵となるアイデアは、入力された3d時間空間データ空間に、3dマスクで特定の量のデータを占有し、出力スコアの変化度を測定することである。
より大きな変化度を生成する排他的ボリュームデータは、分類においてより重要な要素とみなされる。
しかし, 単一画像分類では咬合感度解析が一般的に用いられるが, この考え方をビデオ分類に適用することは, 単純な固定立方体では複雑な動きに対処できないほど簡単ではない。
この問題を解決するために,動作を参照しながら3次元閉塞マスクの形状を適応的に設定する。
入力映像データから抽出した光フローの時間的連続性と空間的共起性を考慮したフレキシブルマスク適応を行う。
さらに,入力映像に対する出力スコアの1次近似を用いて,提案手法の計算コストを削減する新しい手法を提案する。
本手法は,utf101データセットおよびkinetics-400および700データセットの削除/インサーションメトリックおよびポインティングメトリックの観点から,従来手法と多岐にわたる比較を行い,本手法の有効性を示す。
関連論文リスト
- NeRFDeformer: NeRF Transformation from a Single View via 3D Scene Flows [60.291277312569285]
本研究では,単一観測値に基づいてNeRF表現を自動的に修正する手法を提案する。
本手法は, 変形を3次元流れ, 特に剛性変換の重み付き線形ブレンディングとして定義する。
また,単一観測によるNeRFシーンの修正問題を探索するための新しいデータセットも導入した。
論文 参考訳(メタデータ) (2024-06-15T07:58:08Z) - Patch Spatio-Temporal Relation Prediction for Video Anomaly Detection [19.643936110623653]
ビデオ異常検出(VAD)は、特定のコンテキストと時間枠内の異常を識別することを目的としている。
近年の深層学習に基づくVADモデルは,高解像度フレームの生成によって有望な結果を示した。
本稿では, パッチ間関係予測タスクを通じて, VADの自己教師型学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-28T03:07:16Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Match and Locate: low-frequency monocular odometry based on deep feature
matching [0.65268245109828]
本稿では,1台のカメラしか必要としないロボットオドメトリーの新たなアプローチを提案する。
アプローチは、深い特徴マッチングモデルを用いて、ビデオストリームの連続フレーム間の画像特徴のマッチングに基づいている。
本研究では,AISG-SLAビジュアルローカライゼーションチャレンジにおける手法の性能評価を行い,計算効率が高く,実装が容易であるにもかかわらず,競合する結果が得られた。
論文 参考訳(メタデータ) (2023-11-16T17:32:58Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Mixed Reality Depth Contour Occlusion Using Binocular Similarity
Matching and Three-dimensional Contour Optimisation [3.9692358105634384]
混合現実のアプリケーションは、現実のオブジェクトによって部分的に隠された仮想オブジェクトを必要とすることが多い。
従来の研究や商業製品は、性能と効率の面で制限があった。
論文 参考訳(メタデータ) (2022-03-04T13:16:40Z) - Weakly Supervised Instance Segmentation using Motion Information via
Optical Flow [3.0763099528432263]
画像と光の流れから抽出した外観と運動の特徴を利用する2ストリームエンコーダを提案する。
提案手法は,最先端手法の平均精度を3.1倍に向上することを示した。
論文 参考訳(メタデータ) (2022-02-25T22:41:54Z) - SiamPolar: Semi-supervised Realtime Video Object Segmentation with Polar
Representation [6.108508667949229]
そこで我々は,新しい極性表現を用いたシームズネットワークに基づく半教師付きリアルタイム手法を提案する。
極性表現は、微妙な精度の損失でマスクを符号化するためのパラメータを減らすことができる。
また、異なる空間スケールから特徴を抽出するために、非対称シャイムネットワークも開発されている。
論文 参考訳(メタデータ) (2021-10-27T21:10:18Z) - Weakly-supervised Learning For Catheter Segmentation in 3D Frustum
Ultrasound [74.22397862400177]
超音波を用いた新しいカテーテルセグメンテーション法を提案する。
提案手法は,1ボリュームあたり0.25秒の効率で最先端の性能を実現した。
論文 参考訳(メタデータ) (2020-10-19T13:56:22Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。