論文の概要: Differentially Private Video Activity Recognition
- arxiv url: http://arxiv.org/abs/2306.15742v1
- Date: Tue, 27 Jun 2023 18:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 16:52:24.736097
- Title: Differentially Private Video Activity Recognition
- Title(参考訳): 異なるプライベートなビデオアクティビティ認識
- Authors: Zelun Luo, Yuliang Zou, Yijin Yang, Zane Durante, De-An Huang, Zhiding
Yu, Chaowei Xiao, Li Fei-Fei, Animashree Anandkumar
- Abstract要約: ビデオレベルの差分プライバシーをクリップベース分類モデルにより強化する新しいフレームワークであるMulti-Clip DP-SGDを提案する。
提案手法は,UDF-101上でのエプシロン=5のプライバシー予算で81%の精度を達成し,DP-SGDの直接適用に比べて76%改善した。
- 参考スコア(独自算出の注目度): 79.36113764129092
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, differential privacy has seen significant advancements in
image classification; however, its application to video activity recognition
remains under-explored. This paper addresses the challenges of applying
differential privacy to video activity recognition, which primarily stem from:
(1) a discrepancy between the desired privacy level for entire videos and the
nature of input data processed by contemporary video architectures, which are
typically short, segmented clips; and (2) the complexity and sheer size of
video datasets relative to those in image classification, which render
traditional differential privacy methods inadequate. To tackle these issues, we
propose Multi-Clip DP-SGD, a novel framework for enforcing video-level
differential privacy through clip-based classification models. This method
samples multiple clips from each video, averages their gradients, and applies
gradient clipping in DP-SGD without incurring additional privacy loss.
Moreover, we incorporate a parameter-efficient transfer learning strategy to
make the model scalable for large-scale video datasets. Through extensive
evaluations on the UCF-101 and HMDB-51 datasets, our approach exhibits
impressive performance, achieving 81% accuracy with a privacy budget of
epsilon=5 on UCF-101, marking a 76% improvement compared to a direct
application of DP-SGD. Furthermore, we demonstrate that our transfer learning
strategy is versatile and can enhance differentially private image
classification across an array of datasets including CheXpert, ImageNet,
CIFAR-10, and CIFAR-100.
- Abstract(参考訳): 近年、ディファレンシャルプライバシは画像分類において著しく進歩しているが、ビデオアクティビティ認識への応用は未検討のままである。
本稿では,ビデオアクティビティ認識に差分プライバシーを適用する際の課題について述べる。(1)ビデオ全体の所望のプライバシーレベルと,典型的には短くセグメント化されたクリップである現代のビデオアーキテクチャで処理される入力データの性質との相違,(2)画像分類におけるビデオデータセットの複雑さとサイズは,従来の差分プライバシー手法を不適切なものにしている。
そこで本研究では,クリップベースの分類モデルを用いてビデオレベルのディファレンシャルプライバシを強制する新しいフレームワークであるマルチクリップdp-sgdを提案する。
この方法は、各ビデオから複数のクリップをサンプリングし、勾配を平均し、追加のプライバシー損失を伴わずにdp-sgdに勾配クリッピングを適用する。
さらに、パラメータ効率のよい転送学習戦略を導入し、大規模ビデオデータセットにモデルをスケーラブルにする。
UCF-101とHMDB-51データセットの広範な評価により,UDF-101のプライバシー予算であるエプシロン=5で81%の精度を実現し,DP-SGDの直接適用に比べて76%改善した。
さらに,我々は,CheXpert, ImageNet, CIFAR-10, CIFAR-100などのデータセットを対象とする,移動学習戦略の汎用性を実証した。
関連論文リスト
- A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - Few-shot Action Recognition via Intra- and Inter-Video Information
Maximization [28.31541961943443]
本稿では,ビデオ情報最大化(VIM)という,アクション認識のための新しいフレームワークを提案する。
VIMは適応型時空間ビデオサンプリング器と時空間行動アライメントモデルを備える。
VIMは、限られたビデオデータからの映像情報の識別性を最大化するために機能する。
論文 参考訳(メタデータ) (2023-05-10T13:05:43Z) - Beyond Short Clips: End-to-End Video-Level Learning with Collaborative
Memories [56.91664227337115]
本稿では,ビデオの複数のサンプルクリップにまたがる情報を,トレーニングイテレーション毎にエンコードするコラボレーティブメモリ機構を提案する。
これにより、単一のクリップ以上の長距離依存関係の学習が可能になる。
提案するフレームワークはエンドツーエンドでトレーニング可能で,計算オーバーヘッドが無視できないビデオ分類精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-04-02T18:59:09Z) - Learning Representational Invariances for Data-Efficient Action
Recognition [52.23716087656834]
我々は,データ拡張戦略により,Kinetics-100,UCF-101,HMDB-51データセットのパフォーマンスが期待できることを示す。
また,完全な教師付き設定でデータ拡張戦略を検証し,性能向上を実証した。
論文 参考訳(メタデータ) (2021-03-30T17:59:49Z) - Privacy-Preserving Video Classification with Convolutional Neural
Networks [8.51142156817993]
本稿では,畳み込みニューラルネットワークを用いた単一フレーム方式のビデオ分類のプライバシ保護実装を提案する。
個人の感情認識への応用として提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-02-06T05:05:31Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Frame Aggregation and Multi-Modal Fusion Framework for Video-Based
Person Recognition [13.875674649636874]
ビデオに基づく人物認識のためのフレームアグリゲーションとマルチモーダルフュージョン(FAMF)フレームワークを提案する。
FAMFは顔の特徴を集約し、ビデオ内の人物を特定するためのマルチモーダル情報を組み込む。
本稿では,NetVLADにアテンション機構を導入することで,低品質フレームの影響を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2020-10-19T08:06:40Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。