論文の概要: TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition
- arxiv url: http://arxiv.org/abs/2411.19041v1
- Date: Thu, 28 Nov 2024 10:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:13.523422
- Title: TAMT: Temporal-Aware Model Tuning for Cross-Domain Few-Shot Action Recognition
- Title(参考訳): TAMT:クロスドメインFew-Shot行動認識のための時間認識モデルチューニング
- Authors: Yilong Wang, Zilin Gao, Qilong Wang, Zhaofeng Chen, Peihua Li, Qinghua Hu,
- Abstract要約: クロスドメイン行動認識(CDFSAR)は近年研究の関心を集めている。
本稿では,CDFSARのための簡易かつ効果的なベースラインであるTemporal-Aware Model Tuning (TAMT)を提案する。
我々のTAMTは、ソースデータと微調整対象データで事前トレーニングを行うことで、複数のターゲットデータに対する単一のソースによる再トレーニングを回避することで、デカップリングパラダイムを含む。
- 参考スコア(独自算出の注目度): 39.073835841717184
- License:
- Abstract: Going beyond few-shot action recognition (FSAR), cross-domain FSAR (CDFSAR) has attracted recent research interests by solving the domain gap lying in source-to-target transfer learning. Existing CDFSAR methods mainly focus on joint training of source and target data to mitigate the side effect of domain gap. However, such kind of methods suffer from two limitations: First, pair-wise joint training requires retraining deep models in case of one source data and multiple target ones, which incurs heavy computation cost, especially for large source and small target data. Second, pre-trained models after joint training are adopted to target domain in a straightforward manner, hardly taking full potential of pre-trained models and then limiting recognition performance. To overcome above limitations, this paper proposes a simple yet effective baseline, namely Temporal-Aware Model Tuning (TAMT) for CDFSAR. Specifically, our TAMT involves a decoupled paradigm by performing pre-training on source data and fine-tuning target data, which avoids retraining for multiple target data with single source. To effectively and efficiently explore the potential of pre-trained models in transferring to target domain, our TAMT proposes a Hierarchical Temporal Tuning Network (HTTN), whose core involves local temporal-aware adapters (TAA) and a global temporal-aware moment tuning (GTMT). Particularly, TAA learns few parameters to recalibrate the intermediate features of frozen pre-trained models, enabling efficient adaptation to target domains. Furthermore, GTMT helps to generate powerful video representations, improving match performance on the target domain. Experiments on several widely used video benchmarks show our TAMT outperforms the recently proposed counterparts by 13%$\sim$31%, achieving new state-of-the-art CDFSAR results.
- Abstract(参考訳): マイクロショットアクション認識(FSAR)を超えて、クロスドメインFSAR(CDFSAR)は、ソースからターゲットへのトランスファー学習におけるドメインギャップを解決することで、近年の研究関心を集めている。
既存のCDFSAR法は主に、領域ギャップの副作用を軽減するために、ソースとターゲットデータの共同トレーニングに重点を置いている。
しかし、このような手法には2つの制限がある: 第一に、ペアワイドのジョイントトレーニングは、1つのソースデータと複数のターゲットデータの場合、特に大きなソースと小さなターゲットデータに対して重い計算コストを発生させるディープモデルの再訓練を必要とする。
第2に、協調訓練後の事前訓練モデルを、直接的に対象領域に適用し、事前訓練されたモデルの潜在能力を十分に得ることができず、認識性能が制限される。
上記の制限を克服するために,CDFSAR のためのTemporal-Aware Model Tuning (TAMT) というシンプルなベースラインを提案する。
具体的には、ソースデータと微調整対象データで事前トレーニングを行うことにより、複数のターゲットデータに対する単一ソースによる再トレーニングを回避し、デカップリングパラダイムを含む。
対象領域への移動における事前学習モデルのポテンシャルを効果的かつ効率的に探索するため,我々のTAMTは,局所時間対応アダプタ (TAA) とグローバル時間対応モーメントチューニング (GTMT) が中心となる階層型時間調整ネットワーク (HTTN) を提案する。
特にTAAは、凍結事前訓練されたモデルの中間的特徴を再検討するためのパラメータをほとんど学習せず、ターゲット領域への効率的な適応を可能にする。
さらに、GTMTは強力なビデオ表現を生成するのに役立ち、ターゲット領域でのマッチング性能を改善する。
いくつかの広く使用されているビデオベンチマークの実験では、TAMTが最近提案したものよりも13%$\sim$31%向上し、最先端のCDFSARの結果が得られた。
関連論文リスト
- Enhancing Test Time Adaptation with Few-shot Guidance [35.13317598777832]
深層ニューラルネットワークは、トレーニング(ソース)とテスト(ターゲット)データのドメインシフトに直面しながら、大きなパフォーマンス低下に直面することが多い。
TTA(Test Time Adaptation)法は,事前学習したソースモデルを用いて,配信外ストリーミングターゲットデータを処理する手法として提案されている。
本稿では,Few-Shot Test Time Adaptation (FS-TTA) を開発した。
論文 参考訳(メタデータ) (2024-09-02T15:50:48Z) - Beyond Efficiency: Molecular Data Pruning for Enhanced Generalization [30.738229850748137]
MolPegは、一般化を強化するための分子データプルーニングフレームワークである。
これは、事前訓練されたモデルでデータプルーニングを適用する、ソースフリーなデータプルーニングシナリオに焦点を当てている。
4つのダウンストリームタスクで既存のDPメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2024-09-02T09:06:04Z) - Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models [3.072340427031969]
Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。
メタトレーニング中に見られるベースデータセットと評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少数ショット学習によってデータ収集とアノテーションコストが軽減される。
我々は、新しいクロスドメインタスクに対して、既存の最先端の単一ドメイン、転送ベース、およびクロスドメインFSARメソッドを体系的に評価する。
論文 参考訳(メタデータ) (2024-06-03T07:48:18Z) - DG-TTA: Out-of-domain medical image segmentation through Domain Generalization and Test-Time Adaptation [43.842694540544194]
本稿では、ドメインの一般化とテスト時間適応を組み合わせることで、未確認対象領域で事前学習したモデルを再利用するための非常に効果的なアプローチを提案する。
本手法は,事前訓練した全身CTモデルと組み合わせることで,MR画像を高精度に分割できることを実証する。
論文 参考訳(メタデータ) (2023-12-11T10:26:21Z) - Subject-Based Domain Adaptation for Facial Expression Recognition [51.10374151948157]
ディープラーニングモデルを特定の対象個人に適用することは、難しい表情認識タスクである。
本稿では、FERにおける主観的ドメイン適応のための新しいMSDA手法を提案する。
複数の情報源からの情報を効率的に利用して、ディープFERモデルを単一のターゲット個人に適応させる。
論文 参考訳(メタデータ) (2023-12-09T18:40:37Z) - Adapting the Mean Teacher for keypoint-based lung registration under
geometric domain shifts [75.51482952586773]
ディープニューラルネットワークは一般的に、ラベル付きトレーニングデータが多く必要であり、トレーニングデータとテストデータの間のドメインシフトに弱い。
本稿では,ラベル付きソースからラベル付きターゲットドメインへのモデルの適用により,画像登録のための幾何学的領域適応手法を提案する。
本手法は,ベースラインモデルの精度を目標データに適合させながら,ベースラインモデルの50%/47%を継続的に改善する。
論文 参考訳(メタデータ) (2022-07-01T12:16:42Z) - Stagewise Unsupervised Domain Adaptation with Adversarial Self-Training
for Road Segmentation of Remote Sensing Images [93.50240389540252]
リモートセンシング画像からの道路セグメンテーションは、幅広い応用可能性を持つ課題である。
本稿では,この領域における領域シフト(DS)問題に対処するため,RoadDAと呼ばれる新たな段階的ドメイン適応モデルを提案する。
2つのベンチマーク実験の結果、RoadDAはドメインギャップを効率的に減らし、最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-08-28T09:29:14Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - A Transductive Multi-Head Model for Cross-Domain Few-Shot Learning [72.30054522048553]
本稿では,クロスドメインなFew-Shot学習問題に対処するため,TMHFS(Transductive Multi-Head Few-Shot Learning)を提案する。
提案手法は, 4つの異なる対象領域において, 強いベースライン, 微調整を著しく上回っている。
論文 参考訳(メタデータ) (2020-06-08T02:39:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。