論文の概要: SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
- arxiv url: http://arxiv.org/abs/2501.01245v1
- Date: Thu, 02 Jan 2025 13:12:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:39.333666
- Title: SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization
- Title(参考訳): SeFAR: 時間的摂動と学習安定化を考慮した半教師付ききめ細粒度行動認識
- Authors: Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao,
- Abstract要約: きめ細かいアクション認識(FAR)は、短い時間内に詳細なセマンティックラベルに焦点を当てる。
ラベルのアノテートコストと微調整 LLM に必要なデータ量を考えると,半教師付き学習(SSL)の導入を提案する。
当社のフレームワークであるSeFARには,これらの課題に対処するための革新的な設計がいくつか含まれています。
- 参考スコア(独自算出の注目度): 2.1682783789464968
- License:
- Abstract: Human action understanding is crucial for the advancement of multimodal systems. While recent developments, driven by powerful large language models (LLMs), aim to be general enough to cover a wide range of categories, they often overlook the need for more specific capabilities. In this work, we address the more challenging task of Fine-grained Action Recognition (FAR), which focuses on detailed semantic labels within shorter temporal duration (e.g., "salto backward tucked with 1 turn"). Given the high costs of annotating fine-grained labels and the substantial data needed for fine-tuning LLMs, we propose to adopt semi-supervised learning (SSL). Our framework, SeFAR, incorporates several innovative designs to tackle these challenges. Specifically, to capture sufficient visual details, we construct Dual-level temporal elements as more effective representations, based on which we design a new strong augmentation strategy for the Teacher-Student learning paradigm through involving moderate temporal perturbation. Furthermore, to handle the high uncertainty within the teacher model's predictions for FAR, we propose the Adaptive Regulation to stabilize the learning process. Experiments show that SeFAR achieves state-of-the-art performance on two FAR datasets, FineGym and FineDiving, across various data scopes. It also outperforms other semi-supervised methods on two classical coarse-grained datasets, UCF101 and HMDB51. Further analysis and ablation studies validate the effectiveness of our designs. Additionally, we show that the features extracted by our SeFAR could largely promote the ability of multimodal foundation models to understand fine-grained and domain-specific semantics.
- Abstract(参考訳): 人間の行動理解はマルチモーダルシステムの進歩に不可欠である。
最近の開発は、強力な大規模言語モデル(LLM)によって推進され、幅広いカテゴリをカバーするのに十分な汎用性を目指しているが、彼らはしばしば、より具体的な機能の必要性を見落としている。
本研究では、より困難なFARの課題に対処し、より短い時間(例えば「1ターンで後方にタッキングしたサルト」など)で詳細なセマンティックラベルに焦点を当てる。
細粒度ラベルのアノテートコストと微調整 LLM に必要なデータ量を考えると,半教師付き学習(SSL)を採用することを提案する。
当社のフレームワークであるSeFARには,これらの課題に対処するための革新的な設計がいくつか含まれています。
具体的には,2段階の時間的要素をより効果的な表現として構築し,適度な時間的摂動を伴って,教師・学生の学習パラダイムに新たな強化戦略を設計する。
さらに,教師モデルのFAR予測における不確実性に対処するために,学習過程を安定化させる適応規則を提案する。
実験の結果、SeFARはFineGymとFineDivingという2つのFARデータセット上で、さまざまなデータスコープで最先端のパフォーマンスを実現している。
また、UCF101とHMDB51という2つの古典的な粗いデータセット上で、他の半教師付き手法よりも優れている。
さらなる分析およびアブレーション研究により,我々の設計の有効性が検証された。
さらに,SeFARで抽出した特徴が,細粒度やドメイン固有のセマンティクスを理解するマルチモーダル基盤モデルの能力を大いに促進できることを示す。
関連論文リスト
- CSTA: Spatial-Temporal Causal Adaptive Learning for Exemplar-Free Video Class-Incremental Learning [62.69917996026769]
クラスインクリメンタルな学習課題は、空間的外観と時間的行動の関与の両方を学習し、保存することを必要とする。
本稿では,各クラス固有のインクリメンタル情報要件を調整し,新しいクラスパターンを学習するためのアダプタを分離するフレームワークを提案する。
異なる種類の情報間のインクリメントと記憶の衝突を減らすために,因果補償機構を提案する。
論文 参考訳(メタデータ) (2025-01-13T11:34:55Z) - USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Frame Order Matters: A Temporal Sequence-Aware Model for Few-Shot Action Recognition [14.97527336050901]
少ショット動作認識のための時間系列認識モデル(TSAM)を提案する。
シーケンシャルな知覚器アダプタを事前学習フレームワークに組み込んで、空間情報とシーケンシャルな時間的ダイナミクスの両方を特徴埋め込みに統合する。
5つのFSARデータセットに対する実験結果から,提案手法が新たなベンチマークを設定したことが確認された。
論文 参考訳(メタデータ) (2024-08-22T15:13:27Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Robust Feature Learning and Global Variance-Driven Classifier Alignment
for Long-Tail Class Incremental Learning [20.267257778779992]
本稿では,長期クラスインクリメンタルラーニングの強化を目的とした2段階フレームワークを提案する。
本研究は,ロングテールクラスインクリメンタルラーニングにおいて,テールクラスの表現不足がもたらす課題に対処する。
提案するフレームワークは,任意のクラスインクリメンタル学習メソッドをモジュールとしてシームレスに統合することができる。
論文 参考訳(メタデータ) (2023-11-02T13:28:53Z) - Sylph: A Hypernetwork Framework for Incremental Few-shot Object
Detection [8.492340530784697]
大量のデータを含む多くの基本カテゴリがメタトレーニングに利用できる場合、ファネチューンフリーのiFSDは極めて有効であることを示す。
我々はCOCOとLVISの両方でモデルをベンチマークし、LVISの長テールレアクラスで最大17%のAPを報告した。
論文 参考訳(メタデータ) (2022-03-25T20:39:00Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。