論文の概要: Learning Domain-Invariant Temporal Dynamics for Few-Shot Action
Recognition
- arxiv url: http://arxiv.org/abs/2402.12706v1
- Date: Tue, 20 Feb 2024 04:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:10:12.051693
- Title: Learning Domain-Invariant Temporal Dynamics for Few-Shot Action
Recognition
- Title(参考訳): Few-Shot行動認識のためのドメイン不変時間ダイナミクスの学習
- Authors: Yuke Li, Guangyi Chen, Ben Abramowitz, Stefano Anzellott, Donglai Wei
- Abstract要約: 少ないショットアクション認識は、トレーニング済みのモデルを新しいデータに迅速に適応することを目的としている。
主な課題は、事前訓練されたモデルから学んだ伝達可能な知識の特定と活用である。
- 参考スコア(独自算出の注目度): 13.434821382278264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot action recognition aims at quickly adapting a pre-trained model to
the novel data with a distribution shift using only a limited number of
samples. Key challenges include how to identify and leverage the transferable
knowledge learned by the pre-trained model. Our central hypothesis is that
temporal invariance in the dynamic system between latent variables lends itself
to transferability (domain-invariance). We therefore propose DITeD, or
Domain-Invariant Temporal Dynamics for knowledge transfer. To detect the
temporal invariance part, we propose a generative framework with a two-stage
training strategy during pre-training. Specifically, we explicitly model
invariant dynamics including temporal dynamic generation and transitions, and
the variant visual and domain encoders. Then we pre-train the model with the
self-supervised signals to learn the representation. After that, we fix the
whole representation model and tune the classifier. During adaptation, we fix
the transferable temporal dynamics and update the image encoder. The efficacy
of our approach is revealed by the superior accuracy of DITeD over leading
alternatives across standard few-shot action recognition datasets. Moreover, we
validate that the learned temporal dynamic transition and temporal dynamic
generation modules possess transferable qualities.
- Abstract(参考訳): 少数のアクション認識は、限られたサンプル数だけを用いて、分散シフトで、事前訓練されたモデルを新しいデータに迅速に適応することを目的としている。
主な課題は、事前訓練されたモデルから学んだ伝達可能な知識の特定と活用である。
我々の中心となる仮説は、潜在変数間の力学系の時間的不変性が伝達可能性(ドメイン不変性)に寄与するということである。
そこで,我々は知識伝達の領域不変時間ダイナミクスを提案する。
時間的不変部分を検出するために,事前学習中に2段階のトレーニング戦略を持つ生成フレームワークを提案する。
具体的には、時間的動的生成や遷移を含む不変ダイナミクスと、視覚およびドメインエンコーダを明示的にモデル化する。
次に、自己教師付き信号でモデルを事前訓練し、表現を学習する。
その後、表現モデル全体を修正し、分類器をチューニングします。
適応中は、転送可能な時間ダイナミクスを修正し、画像エンコーダを更新する。
提案手法の有効性は,標準的な数発のアクション認識データセットよりもDITeDの方が優れた精度で明らかである。
さらに、学習した時間的動的遷移と時間的動的生成モジュールが伝達可能な性質を持つことを検証する。
関連論文リスト
- Equivariant Graph Neural Operator for Modeling 3D Dynamics [153.9455825436751]
Equivariant Graph Neural Operator (EGNO) は,次のステップの予測に代えて,ダイナミックスを直接トラジェクトリとしてモデル化する,斬新で原理的な手法である。
EGNOは3次元力学の時間的進化を明示的に学習し、時間とともに関数として力学を定式化し、それを近似するためにニューラル演算子を学習する。
粒子シミュレーション、人間のモーションキャプチャー、分子動力学を含む複数の領域における総合的な実験は、既存の手法と比較して、EGNOの極めて優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-19T21:50:32Z) - Variational Temporal IRT: Fast, Accurate, and Explainable Inference of
Dynamic Learner Proficiency [5.715502630272047]
学習者の習熟度を高速かつ正確に推定するための変分時IRT(VTIRT)を提案する。
VTIRTは、正確な推論を提供しながら、推論ランタイムにおいて桁違いのスピードアップを提供する。
9つの実際の学生データセットに適用すると、VTIRTは将来的な学習者のパフォーマンスを予測するための改善を一貫して得る。
論文 参考訳(メタデータ) (2023-11-14T23:36:39Z) - T-SaS: Toward Shift-aware Dynamic Adaptation for Streaming Data [9.829993835712422]
本稿では,突発的な分散シフトの存在下での逐次データモデリングの課題を解決することを目的とする。
具体的には、データの急激なシフトを捉えるために、離散分布モデリング変数を持つT-SaSと呼ばれるベイズフレームワークを設計する。
提案手法は,全ネットワーク上でどのニューロンを活性化すべきかを学習することで,各分布の特定のモデルパラメータを学習する。
論文 参考訳(メタデータ) (2023-09-05T22:55:10Z) - RePo: Resilient Model-Based Reinforcement Learning by Regularizing
Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。
我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。
我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文 参考訳(メタデータ) (2023-08-31T18:43:04Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.89014020303557]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time
Adaptation [49.84571101331491]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、CTTAタスクを提案する。
我々はCTTAのためのビジュアルドメインアダプタ(ViDA)を提案し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action
Recognition [66.96931254510544]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Contrastively Disentangled Sequential Variational Autoencoder [20.75922928324671]
本稿では,C-DSVAE(Contrastively Disentangled Sequential Variational Autoencoder)という新しいシーケンス表現学習手法を提案する。
我々は,静的因子と動的因子の相互情報をペナルティ化しながら,入力と潜伏因子の相互情報を最大化する新しいエビデンスローバウンドを用いる。
実験の結果、C-DSVAEは従来の最先端の手法よりも優れていたことが判明した。
論文 参考訳(メタデータ) (2021-10-22T23:00:32Z) - Variational Predictive Routing with Nested Subjective Timescales [1.6114012813668934]
本稿では,時間的階層に潜む映像の特徴を整理するニューラル推論システムである変動予測ルーティング(PRV)を提案する。
VPRはイベント境界を検出し、時間的特徴を分散させ、データの動的階層に適応し、未来の正確な時間に依存しないロールアウトを生成することができることを示す。
論文 参考訳(メタデータ) (2021-10-21T16:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。