論文の概要: From Pixels to Privacy: Temporally Consistent Video Anonymization via Token Pruning for Privacy Preserving Action Recognition
- arxiv url: http://arxiv.org/abs/2603.26336v1
- Date: Fri, 27 Mar 2026 11:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.481862
- Title: From Pixels to Privacy: Temporally Consistent Video Anonymization via Token Pruning for Privacy Preserving Action Recognition
- Title(参考訳): ピクセルからプライバシへ:行動認識のためのトケンプルーニングによる一時的一貫性のあるビデオ匿名化
- Authors: Nazia Aslam, Abhisek Ray, Joakim Bruslund Haurum, Lukas Esterle, Kamal Nasrollahi,
- Abstract要約: 本稿では,システマティックなビデオ匿名化とプライバシ機能に基づくビデオ匿名化フレームワークを提案する。
私たちの重要な洞察は、視覚変換器の注意機構は、プライバシーに敏感なコンテンツからアクション関連情報を分離するために構成できるということです。
われわれのアプローチは、生のビデオで訓練されたモデルに匹敵する認識を維持しつつ、プライバシーの漏洩を大幅に減らしている。
- 参考スコア(独自算出の注目度): 14.897629110496219
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large-scale video models have significantly improved video understanding across domains such as surveillance, healthcare, and entertainment. However, these models also amplify privacy risks by encoding sensitive attributes, including facial identity, race, and gender. While image anonymization has been extensively studied, video anonymization remains relatively underexplored, even though modern video models can leverage spatiotemporal motion patterns as biometric identifiers. To address this challenge, we propose a novel attention-driven spatiotemporal video anonymization framework based on systematic disentanglement of utility and privacy features. Our key insight is that attention mechanisms in Vision Transformers (ViTs) can be explicitly structured to separate action-relevant information from privacy-sensitive content. Building on this insight, we introduce two task-specific classification tokens, an action CLS token and a privacy CLS token, that learn complementary representations within a shared Transformer backbone. We contrast their attention distributions to compute a utility-privacy score for each spatiotemporal tubelet, and keep the top-k tubelets with the highest scores. This selectively prunes tubelets dominated by privacy cues while preserving those most critical for action recognition. Extensive experiments demonstrate that our approach maintains action recognition performance comparable to models trained on raw videos, while substantially reducing privacy leakage. These results indicate that attention-driven spatiotemporal pruning offers an effective and principled solution for privacy-preserving video analytics.
- Abstract(参考訳): 大規模ビデオモデルの最近の進歩は、監視、医療、エンターテイメントといった領域におけるビデオ理解を大幅に改善した。
しかし、これらのモデルは、顔のアイデンティティ、人種、性別など、機密性の高い属性をエンコードすることで、プライバシーリスクを増幅する。
画像の匿名化は広く研究されているが、現代のビデオモデルでは生体認証として時空間運動パターンを活用できるものの、ビデオの匿名化は比較的過小評価されている。
この課題に対処するために,実用性とプライバシの機能の体系的切り離しに基づく,新規な注目駆動時空間ビデオ匿名化フレームワークを提案する。
私たちのキーとなる洞察は、視覚変換器(ViT)の注意機構は、プライバシーに敏感なコンテンツからアクション関連情報を分離するために明示的に構成できるということです。
この知見に基づいて、共有トランスフォーマーバックボーン内で補完表現を学習する2つのタスク固有の分類トークン、アクションCRSトークンとプライバシCRSトークンを導入する。
本研究では,各時空間チューブレットの実用的プライバシスコアを算出し,トップkチューブレットを最高スコアで保持する。
この方法では、プライバシの手がかりによって支配されるチューブレットを選択的にプルースし、アクション認識に最も重要なものを保存する。
大規模な実験により,本手法は生ビデオで訓練したモデルに匹敵する動作認識性能を維持しつつ,プライバシーの漏洩を大幅に低減することを示した。
これらの結果は、注意駆動型時空間プルーニングが、プライバシー保護ビデオ分析に効果的で原則化されたソリューションであることを示している。
関連論文リスト
- Knowledge Priors for Identity-Disentangled Open-Set Privacy-Preserving Video FER [29.528717718182975]
ビデオベースのプライバシー保護FERのための2段階フレームワークを提案する。
まず、ビデオ内および動画間知識を用いたアイデンティティ抑圧ネットワークを訓練する。
その後のdenoisingモジュールは、式関連情報を復元し、FERパフォーマンスの回復を支援する。
論文 参考訳(メタデータ) (2026-03-22T20:18:31Z) - Neural Gate: Mitigating Privacy Risks in LVLMs via Neuron-Level Gradient Gating [71.55435880263238]
ニューラルゲート(Neural Gate)は,ニューロンレベルのモデル編集によってプライバシリスクを軽減する新しい手法である。
本手法は,プライバシ関連質問に対する拒否率を高めることにより,モデルのプライバシ保護を改善する。
論文 参考訳(メタデータ) (2026-03-13T03:03:20Z) - Privacy Beyond Pixels: Latent Anonymization for Privacy-Preserving Video Understanding [56.369026347458835]
本稿では,ビデオ基盤モデルにおける視覚的プライバシ保護の新たな定式化について紹介する。
入力ピクセルレベルの匿名化に関する現在のプライバシー保護手法では、ユーティリティビデオモデル全体を再トレーニングする必要がある。
軽量な Anonym Adapter Module (AAM) は、一般的なタスクユーティリティを維持しながら、ビデオ機能からプライベート情報を除去する。
論文 参考訳(メタデータ) (2025-11-11T18:56:27Z) - Activity Recognition on Avatar-Anonymized Datasets with Masked Differential Privacy [64.32494202656801]
プライバシを保存するコンピュータビジョンは、機械学習と人工知能において重要な問題である。
本稿では,ビデオデータセット中の感性のある被験者を文脈内の合成アバターに置き換える匿名化パイプラインを提案する。
また、匿名化されていないがプライバシーに敏感な背景情報を保護するため、MaskDPを提案する。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - CausalVE: Face Video Privacy Encryption via Causal Video Prediction [13.577971999457164]
ビデオやライブストリーミングのWebサイトの普及に伴い、公開対面のビデオ配信とインタラクションは、プライバシー上のリスクを増大させる。
これらの欠点に対処するニューラルネットワークフレームワークCausalVEを提案する。
我々のフレームワークは、公開ビデオの拡散において優れたセキュリティを有し、定性的、量的、視覚的な観点から最先端の手法より優れている。
論文 参考訳(メタデータ) (2024-09-28T10:34:22Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - STPrivacy: Spatio-Temporal Tubelet Sparsification and Anonymization for
Privacy-preserving Action Recognition [28.002605566359676]
両時間的視点からプライバシー保護を行うPPARパラダイムを提案し,STPrivacyフレームワークを提案する。
当社のSTPrivacyは初めて視覚変換器をPPARに適用し,映像を漏洩時管のシーケンスと見なしている。
大規模なベンチマークがないため、最も人気のある2つのアクション認識データセットの5つのプライバシ属性を注釈付けします。
論文 参考訳(メタデータ) (2023-01-08T14:07:54Z) - PrivHAR: Recognizing Human Actions From Privacy-preserving Lens [58.23806385216332]
我々は、人間の行動認識パイプラインに沿って、堅牢な視覚的プライバシー保護を提供するための最適化フレームワークを提案する。
我々のフレームワークは、カメラレンズをパラメータ化して、ビデオの品質を劣化させ、プライバシー特性を抑え、敵の攻撃を防ぎます。
論文 参考訳(メタデータ) (2022-06-08T13:43:29Z) - SPAct: Self-supervised Privacy Preservation for Action Recognition [73.79886509500409]
アクション認識におけるプライバシー漏洩を緩和するための既存のアプローチは、ビデオデータセットのアクションラベルとともに、プライバシラベルを必要とする。
自己教師付き学習(SSL)の最近の進歩は、未ラベルデータの未発見の可能性を解き放ちつつある。
本稿では、プライバシーラベルを必要とせず、自己管理的な方法で、入力ビデオからプライバシー情報を除去する新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T02:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。