論文の概要: Play Fair: Frame Attributions in Video Models
- arxiv url: http://arxiv.org/abs/2011.12372v1
- Date: Tue, 24 Nov 2020 20:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:34:11.306304
- Title: Play Fair: Frame Attributions in Video Models
- Title(参考訳): Play Fair:ビデオモデルにおけるフレーム属性
- Authors: Will Price and Dima Damen
- Abstract要約: 本稿では,行動認識モデルを説明する属性法を提案する。
モデルのクラススコアを、各フレームからのコントリビューションの合計に分解します。
本稿では, フレームの支持・抽出に関する詳細な分析と, フレームの位置, クラス予測, シーケンス長との関係について述べる。
- 参考スコア(独自算出の注目度): 32.18321127973352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce an attribution method for explaining action
recognition models. Such models fuse information from multiple frames within a
video, through score aggregation or relational reasoning. We break down a
model's class score into the sum of contributions from each frame, fairly. Our
method adapts an axiomatic solution to fair reward distribution in cooperative
games, known as the Shapley value, for elements in a variable-length sequence,
which we call the Element Shapley Value (ESV). Critically, we propose a
tractable approximation of ESV that scales linearly with the number of frames
in the sequence. We employ ESV to explain two action recognition models (TRN
and TSN) on the fine-grained dataset Something-Something. We offer detailed
analysis of supporting/distracting frames, and the relationships of ESVs to the
frame's position, class prediction, and sequence length. We compare ESV to
naive baselines and two commonly used feature attribution methods: Grad-CAM and
Integrated-Gradients.
- Abstract(参考訳): 本稿では,行動認識モデルを説明する属性法を提案する。
このようなモデルは、スコアアグリゲーションやリレーショナル推論を通じて、ビデオ内の複数のフレームから情報を融合する。
モデルのクラススコアを、各フレームからのコントリビュートの総和に、公平に分解します。
本手法は,シャプリー値と呼ばれる協調ゲームにおいて,要素シャプリー値 (element shapley value, esv) と呼ばれる可変長列の要素に対して,公理解を公平な報酬分布に適応させる。
批判的に,本手法ではフレーム数に線形にスケールするesvの抽出可能な近似法を提案する。
きめ細かいデータセット上の2つのアクション認識モデル(trnとtsn)を説明するためにesvを用いる。
本稿では,フレームの支持/離間,フレームの位置,クラス予測,シーケンス長との関係について詳細に分析する。
本研究では,ESVと単純ベースラインと,Grad-CAMとIntegrated-Gradientsの2つの特徴属性法を比較した。
関連論文リスト
- Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Representing Videos as Discriminative Sub-graphs for Action Recognition [165.54738402505194]
ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:25Z) - COMPOSER: Compositional Learning of Group Activity in Videos [33.526331969279106]
グループアクティビティ認識(GAR)は、短いビデオクリップでアクターのグループによって実行されるアクティビティを検出する。
トークンに対する注意に基づく推論を行うマルチスケールトランスフォーマーアーキテクチャであるComposERを提案する。
COMPOSERは新しい94.5%の精度をキーポイントのみのモダリティで達成した。
論文 参考訳(メタデータ) (2021-12-11T01:25:46Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Temporal-Relational CrossTransformers for Few-Shot Action Recognition [82.0033565755246]
提案手法は,サポートセット内のクエリとビデオの間に時間的対応性のあるフレームを見出すことである。
先行研究とは別として,全サポートビデオの関連サブシーケンスを観察するために,クロストランスフォーマアテンション機構を用いたクラスプロトタイプを構築した。
詳細なアブレーションは、複数のサポートセットビデオとマッチングし、高階クロストランスフォーマーを学ぶことの重要性を示しています。
論文 参考訳(メタデータ) (2021-01-15T15:47:35Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。