論文の概要: FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition
- arxiv url: http://arxiv.org/abs/2409.01448v1
- Date: Mon, 2 Sep 2024 20:08:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 03:48:38.527637
- Title: FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition
- Title(参考訳): FinePseudo: 半監督された細粒度行動認識のための時間的合理性による擬似ラベルの改善
- Authors: Ishan Rajendrakumar Dave, Mamshad Nayeem Rizve, Mubarak Shah,
- Abstract要約: 実生活における行動認識の応用は、しばしば微妙な動きのきめ細かい理解を必要とする。
既存の半教師ありアクション認識は主に粗いアクション認識に焦点を当てている。
そこで我々は,微粒なアクションペアの識別を効果的に行うための,アライナビリティ検証に基づくメトリック学習手法を提案する。
- 参考スコア(独自算出の注目度): 57.17966905865054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-life applications of action recognition often require a fine-grained understanding of subtle movements, e.g., in sports analytics, user interactions in AR/VR, and surgical videos. Although fine-grained actions are more costly to annotate, existing semi-supervised action recognition has mainly focused on coarse-grained action recognition. Since fine-grained actions are more challenging due to the absence of scene bias, classifying these actions requires an understanding of action-phases. Hence, existing coarse-grained semi-supervised methods do not work effectively. In this work, we for the first time thoroughly investigate semi-supervised fine-grained action recognition (FGAR). We observe that alignment distances like dynamic time warping (DTW) provide a suitable action-phase-aware measure for comparing fine-grained actions, a concept previously unexploited in FGAR. However, since regular DTW distance is pairwise and assumes strict alignment between pairs, it is not directly suitable for classifying fine-grained actions. To utilize such alignment distances in a limited-label setting, we propose an Alignability-Verification-based Metric learning technique to effectively discriminate between fine-grained action pairs. Our learnable alignability score provides a better phase-aware measure, which we use to refine the pseudo-labels of the primary video encoder. Our collaborative pseudo-labeling-based framework `\textit{FinePseudo}' significantly outperforms prior methods on four fine-grained action recognition datasets: Diving48, FineGym99, FineGym288, and FineDiving, and shows improvement on existing coarse-grained datasets: Kinetics400 and Something-SomethingV2. We also demonstrate the robustness of our collaborative pseudo-labeling in handling novel unlabeled classes in open-world semi-supervised setups. Project Page: https://daveishan.github.io/finepsuedo-webpage/.
- Abstract(参考訳): 実生活における行動認識の応用は、スポーツ分析、AR/VRにおけるユーザーインタラクション、手術ビデオなど、微妙な動きの微妙な理解を必要とすることが多い。
微粒な動作はアノテートするのによりコストがかかるが、既存の半監督的な動作認識は主に粗粒な動作認識に焦点を当てている。
シーンバイアスがないため、きめ細かいアクションはより難しいため、これらのアクションを分類するにはアクションフェーズを理解する必要がある。
したがって、既存の粗い半教師付き手法は効果的に機能しない。
本研究は, 半教師付き細粒度行動認識(FGAR)を初めて徹底的に検討した。
我々は、動的時間ワープ(DTW)のようなアライメント距離が、FGARで以前は明らかにされていなかった、きめ細かい動作を比較するのに適したアクションフェーズアウェア尺度を提供することを観察した。
しかし、通常のDTW距離はペアワイズであり、ペア間の厳密なアライメントを前提としているため、きめ細かい動作の分類にはあまり適していない。
このようなアライメント距離を限定ラベル設定で利用するために,微粒化作用対を効果的に識別するアライナビリティ検証に基づくメトリック学習手法を提案する。
学習可能な整合性スコアは、一次ビデオエンコーダの擬似ラベルを洗練するために、より優れた位相認識尺度を提供する。
協調的な擬似ラベルベースのフレームワークである '\textit{FinePseudo}' は,4つのきめ細かいアクション認識データセットである Diving48, FineGym99, FineGym288, FineDiving において,従来の粗い粒度のデータセットである Kinetics400 と Something-SomethingV2 を著しく上回っている。
また、オープンワールドの半教師付きセットアップにおいて、新しい未ラベルクラスを扱う上で、協調的な擬似ラベルの堅牢性を示す。
Project Page: https://daveishan.github.io/finepsuedo-webpage/.com
関連論文リスト
- Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Weakly-Supervised Temporal Action Detection for Fine-Grained Videos with
Hierarchical Atomic Actions [13.665489987620724]
ビデオにおける微粒な時間的行動検出の弱さに対処する。
本稿では、データから自動的に検出される再利用可能なアトミックアクションの組み合わせとしてアクションをモデル化する。
提案手法は,クリップレベル,アトミックアクションレベル,ファインアクションクラスレベル,粗いアクションクラスレベルという4つのレベルの視覚的表現階層を構築し,各レベルを監督する。
論文 参考訳(メタデータ) (2022-07-24T20:32:24Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Few-Shot Fine-Grained Action Recognition via Bidirectional Attention and
Contrastive Meta-Learning [51.03781020616402]
現実世界のアプリケーションで特定のアクション理解の需要が高まっているため、きめ細かいアクション認識が注目を集めている。
そこで本研究では,各クラスに付与されるサンプル数だけを用いて,新規なきめ細かい動作を認識することを目的とした,数発のきめ細かな動作認識問題を提案する。
粒度の粗い動作では進展があったが、既存の数発の認識手法では、粒度の細かい動作を扱う2つの問題に遭遇する。
論文 参考訳(メタデータ) (2021-08-15T02:21:01Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。