論文の概要: Privacy-Preserving Federated Action Recognition via Differentially Private Selective Tuning and Efficient Communication
- arxiv url: http://arxiv.org/abs/2603.21305v1
- Date: Sun, 22 Mar 2026 16:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.346045
- Title: Privacy-Preserving Federated Action Recognition via Differentially Private Selective Tuning and Efficient Communication
- Title(参考訳): 個人差分調整と効率的なコミュニケーションによるプライバシ保護型フェデレーション行動認識
- Authors: Idris Zakariyya, Pai Chet Ng, Kaushik Bhargav Sivangi, S. Mohammad Sheikholeslami, Konstantinos N. Plataniotis, Fani Deligianni,
- Abstract要約: フェデレートされたビデオ行動認識は、生のビデオデータを共有せずに協調的なモデルトレーニングを可能にする。
差分プライバシー(DP)の下でタスク関連レイヤを選択的に微調整し摂動するtextitFedDP-STECAR フレームワークを提案する。
集約中に調整されたレイヤのみを送信することで、フルモデル更新と比較して通信トラフィックは99%以上削減される。
- 参考スコア(独自算出の注目度): 25.243649529257052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Federated video action recognition enables collaborative model training without sharing raw video data, yet remains vulnerable to two key challenges: \textit{model exposure} and \textit{communication overhead}. Gradients exchanged between clients and the server can leak private motion patterns, while full-model synchronization of high-dimensional video networks causes significant bandwidth and communication costs. To address these issues, we propose \textit{Federated Differential Privacy with Selective Tuning and Efficient Communication for Action Recognition}, namely \textit{FedDP-STECAR}. Our \textit{FedDP-STECAR} framework selectively fine-tunes and perturbs only a small subset of task-relevant layers under Differential Privacy (DP), reducing the surface of information leakage while preserving temporal coherence in video features. By transmitting only the tuned layers during aggregation, communication traffic is reduced by over 99\% compared to full-model updates. Experiments on the UCF-101 dataset using the MViT-B-16x4 transformer show that \textit{FedDP-STECAR} achieves up to \textbf{70.2\% higher accuracy} under strict privacy ($ε=0.65$) in centralized settings and \textbf{48\% faster training} with \textbf{73.1\% accuracy} in federated setups, enabling scalable and privacy-preserving video action recognition. Code available at https://github.com/izakariyya/mvit-federated-videodp
- Abstract(参考訳): フェデレートされたビデオアクション認識は、生のビデオデータを共有することなく、協調的なモデルトレーニングを可能にするが、2つの主要な課題: \textit{model exposure} と \textit{communication overhead} に対して脆弱なままである。
クライアントとサーバの間で交換されるグラディエントはプライベートな動作パターンをリークするが、高次元ビデオネットワークのフルモデル同期は、帯域幅と通信コストを著しく高める。
これらの問題に対処するために、選択的チューニングと効果的なコミュニケーション・フォー・アクション認識を用いた微分プライバシーの提案を行う。
我々の<textit{FedDP-STECAR}フレームワークは、差分プライバシー(DP)の下でタスク関連レイヤの小さなサブセットのみを選択的に微調整し、ビデオ機能における時間的コヒーレンスを維持しながら情報漏洩を低減します。
集約中に調整されたレイヤのみを送信することで、フルモデル更新と比較して、通信トラフィックは99\%以上削減される。
MViT-B-16x4 変換器を用いた UCF-101 データセットの実験では、厳密なプライバシー (ε=0.65$) 下では \textbf{70.2\% 高い精度で、フェデレートされたセットアップでは \textbf{73.1\% の高速トレーニングで \textbf{48\% となる。
https://github.com/izakariyya/mvit-federated-videodp
関連論文リスト
- TrajTok: Learning Trajectory Tokens enables better Video Understanding [63.1260672430712]
ビデオモデルのトークン化は、通常、パッチ化によって、過剰で冗長な数のトークンを生成する。
そこで我々は,ビデオモデルと完全に統合され,共にトレーニングされたビデオトークンモジュールであるTrajTokを提案する。
本稿では,前処理した視覚特徴量(TrajAdapter)の探索ヘッドとしてシームレスに統合できるか,特に長ビデオ推論において高い性能を持つ視覚言語モデル(TrajVLM)のアライメントコネクタとして利用できることを示す。
論文 参考訳(メタデータ) (2026-02-26T09:15:34Z) - One-Shot Secure Aggregation: A Hybrid Cryptographic Protocol for Private Federated Learning in IoT [0.0]
Hyb-Aggは軽量で通信効率の良いセキュアアグリゲーションプロトコルである。
マルチキーCKKS (MK-CKKS) と楕円曲線Diffie-Hellman (ECDH) ベースの加算マスキングを統合している。
Raspberry Pi 4を含む高性能およびリソース制約のあるデバイス上でHyb-Aggを実装し,評価する。
論文 参考訳(メタデータ) (2025-11-28T15:01:26Z) - VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。
VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文 参考訳(メタデータ) (2025-11-24T07:07:58Z) - State Space Prompting via Gathering and Spreading Spatio-Temporal Information for Video Understanding [50.866929044215965]
本稿では,映像理解のためのステートスペース・プロンプティング(SSP)手法を提案する。
SSPはフレーム内のプロンプトを組み合わせて、ビデオ内の重要な時間情報を集約し、伝達する。
我々のSSPは、既存のSOTA法を平均2.76%上回っている。
論文 参考訳(メタデータ) (2025-10-14T05:30:36Z) - HiTVideo: Hierarchical Tokenizers for Enhancing Text-to-Video Generation with Autoregressive Large Language Models [63.65066762436074]
HiTVideoは、テキストからビデオ生成タスクにおける既存のビデオトークンの潜在的な制限を解決することを目的としている。
マルチレイヤの離散トークンフレームワークを備えた3D因果VAEを使用し、ビデオコンテンツを階層的に構造化されたコードブックにエンコードする。
論文 参考訳(メタデータ) (2025-03-14T15:36:39Z) - SweetTok: Semantic-Aware Spatial-Temporal Tokenizer for Compact Video Discretization [20.109136454526233]
本稿では,現在のビデオトークン化手法の限界を克服する新しいビデオトークン化ツールであるSweetTokを提案する。
SweetTokは、textbfDecoupled textbfAutotextbfEncoder (DQAE)を介して、異なる空間的および時間的クエリを通して視覚入力を圧縮する
SweetTok は UCF-101 データセット上で textbf42.8% w.r.t rFVD でビデオ再構成結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-12-11T13:48:06Z) - Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference [14.030836300221756]
textbfSparse-Tuningは、画像やビデオの情報冗長性を考慮に入れた新しいPEFTメソッドである。
Sparse-Tuningは各層で処理されるトークンの量を最小限に抑え、計算とメモリのオーバーヘッドを2次的に削減する。
我々のSparse-TuningはGFLOPsを62%-70%に削減し,最先端性能を実現した。
論文 参考訳(メタデータ) (2024-05-23T15:34:53Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - FLVoogd: Robust And Privacy Preserving Federated Learning [12.568409209047505]
プライバシを保護しながら,サーバとクライアントが共同でビザンチン攻撃を除去する,新たなフェデレート学習手法であるoogdを提案する。
サーバは、S2PCと組み合わされたDBSCAN(Spatial Clustering of Applications)の自動密度ベースの空間クラスタリングを使用して、機密性の高い個人情報を取得せずに、良質な多数派をクラスタリングする。
私たちのフレームワークは自動で適応的なので、サーバ/クライアントはトレーニング中にパラメータをチューニングする必要がありません。
論文 参考訳(メタデータ) (2022-06-24T08:48:15Z) - DP-NormFedAvg: Normalizing Client Updates for Privacy-Preserving
Federated Learning [48.064786028195506]
我々は,クライアントに対して,大局的な情報の観点から,テキスト単位のみを定量化したバージョンを送信させることを提案する。
また、単位ノルムの新しい微分プライベート量子化機構であるQTDLを導入する。
論文 参考訳(メタデータ) (2021-06-13T21:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。