論文の概要: Decoupled Prompt-Adapter Tuning for Continual Activity Recognition
- arxiv url: http://arxiv.org/abs/2407.14811v1
- Date: Sat, 20 Jul 2024 08:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:42:12.749783
- Title: Decoupled Prompt-Adapter Tuning for Continual Activity Recognition
- Title(参考訳): 連続的活動認識のための非結合型Prompt-Adapter Tuning
- Authors: Di Fu, Thanh Vinh Vo, Haozhe Ma, Tze-Yun Leong,
- Abstract要約: アクション認識技術は、監視システムを通じたセキュリティ向上、医療における患者監視の改善、製造業や補助技術といった分野におけるシームレスな人間とAIのコラボレーションを促進する上で、重要な役割を担っている。
Decoupled Prompt-Adapter Tuning (DPAT) は、空間的時間的情報を取得するためのアダプタを統合する新しいフレームワークであり、デカップリングトレーニング戦略を通じて破滅的な忘れを軽減するための学習可能なプロンプトである。
DPATは、いくつかの挑戦的なアクション認識ベンチマークにおいて、常に最先端のパフォーマンスを達成し、連続的なアクション認識の領域における我々のモデルの有効性を実証する。
- 参考スコア(独自算出の注目度): 6.224769485481242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Action recognition technology plays a vital role in enhancing security through surveillance systems, enabling better patient monitoring in healthcare, providing in-depth performance analysis in sports, and facilitating seamless human-AI collaboration in domains such as manufacturing and assistive technologies. The dynamic nature of data in these areas underscores the need for models that can continuously adapt to new video data without losing previously acquired knowledge, highlighting the critical role of advanced continual action recognition. To address these challenges, we propose Decoupled Prompt-Adapter Tuning (DPAT), a novel framework that integrates adapters for capturing spatial-temporal information and learnable prompts for mitigating catastrophic forgetting through a decoupled training strategy. DPAT uniquely balances the generalization benefits of prompt tuning with the plasticity provided by adapters in pretrained vision models, effectively addressing the challenge of maintaining model performance amidst continuous data evolution without necessitating extensive finetuning. DPAT consistently achieves state-of-the-art performance across several challenging action recognition benchmarks, thus demonstrating the effectiveness of our model in the domain of continual action recognition.
- Abstract(参考訳): アクション認識技術は、監視システムを通じたセキュリティ向上、医療における患者の監視の改善、スポーツにおける詳細なパフォーマンス分析の提供、製造業や補助技術といった分野におけるシームレスな人間とAIのコラボレーションの促進において、重要な役割を担っている。
これらの領域におけるデータのダイナミックな性質は、獲得した知識を失わずに新しいビデオデータに継続的に適応できるモデルの必要性を浮き彫りにして、高度な連続的行動認識の重要な役割を浮き彫りにする。
これらの課題に対処するために,空間時空間情報を取得するためのアダプタと,分離学習戦略を通じて破滅的な忘れを軽減するための学習可能なプロンプトを統合する新しいフレームワークであるDecoupled Prompt-Adapter Tuning (DPAT)を提案する。
DPATは、事前訓練された視覚モデルにおけるアダプタが提供する可塑性と迅速なチューニングの一般化の利点を一意にバランスさせ、広範囲の微調整を必要とせずに連続データ進化中のモデル性能を維持するという課題に効果的に対処する。
DPATは、いくつかの挑戦的なアクション認識ベンチマークにおいて、常に最先端のパフォーマンスを達成し、連続的なアクション認識の領域における我々のモデルの有効性を実証する。
関連論文リスト
- A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。
本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。
本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文 参考訳(メタデータ) (2024-07-26T17:51:58Z) - Evaluating the Effectiveness of Video Anomaly Detection in the Wild: Online Learning and Inference for Real-world Deployment [2.1374208474242815]
Video Anomaly Detection (VAD) は、監視から医療まで幅広い応用の鍵となる、ビデオストリームにおける異常な活動を特定する。
実生活環境でのVADに取り組むことは、人間の行動の動的な性質、環境の変化、ドメインシフトによって大きな課題となる。
オンライン学習は、モデルを新しい情報に継続的に適応させることによって、この問題を軽減するための潜在的戦略である。
論文 参考訳(メタデータ) (2024-04-29T14:47:32Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Enhancing Network Intrusion Detection Performance using Generative Adversarial Networks [0.25163931116642785]
GAN(Generative Adversarial Networks)の統合によるNIDSの性能向上のための新しいアプローチを提案する。
GANは、現実世界のネットワークの振る舞いを忠実に模倣する合成ネットワークトラフィックデータを生成する。
NIDSへのGANの統合は,訓練データに制限のある攻撃に対する侵入検知性能の向上につながる可能性が示唆された。
論文 参考訳(メタデータ) (2024-04-11T04:01:15Z) - Adaptive Affinity-Based Generalization For MRI Imaging Segmentation Across Resource-Limited Settings [1.5703963908242198]
本稿では,適応親和性に基づく蒸留とカーネルベースの蒸留をシームレスに組み合わせた,新しい関係に基づく知識フレームワークを提案する。
革新的アプローチを検証するために,我々は公開されている複数ソースのMRIデータについて実験を行った。
論文 参考訳(メタデータ) (2024-04-03T13:35:51Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Data Quality Aware Approaches for Addressing Model Drift of Semantic
Segmentation Models [1.6385815610837167]
本研究では,戦闘モデルドリフトに対する2つの顕著な品質意識戦略について検討した。
前者は画像品質評価の指標を活用して、厳密に高品質なトレーニングデータを選択し、モデルの堅牢性を向上させる。
後者は、既存のモデルから学んだベクトル機能を利用して、将来のデータの選択をガイドし、モデルの以前の知識と整合させる。
論文 参考訳(メタデータ) (2024-02-11T18:01:52Z) - WiFi-TCN: Temporal Convolution for Human Interaction Recognition based
on WiFi signal [4.0773490083614075]
近年,Wi-Fiによる人間活動認識が注目されている。
Wi-FiベースのHARにまつわる課題は、シーンや被写体が変化するときのパフォーマンスが著しく低下することである。
本稿では,TN-AAと呼ばれる時間的畳み込みネットワークを利用した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:37:32Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Modality Compensation Network: Cross-Modal Adaptation for Action
Recognition [77.24983234113957]
異なるモダリティの関係を探索するためのモダリティ補償ネットワーク(MCN)を提案する。
我々のモデルは、適応表現学習を実現するために、モーダリティ適応ブロックによって、ソースおよび補助モーダリティからのデータをブリッジする。
実験の結果,MCNは4つの広く使用されている行動認識ベンチマークにおいて,最先端のアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-31T04:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。