論文の概要: Video Test-Time Adaptation for Action Recognition
- arxiv url: http://arxiv.org/abs/2211.15393v1
- Date: Thu, 24 Nov 2022 10:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 18:58:52.992043
- Title: Video Test-Time Adaptation for Action Recognition
- Title(参考訳): 行動認識のためのビデオテスト時間適応
- Authors: Wei Lin, Muhammad Jehanzeb Mirza, Mateusz Kozinski, Horst Possegger,
Hilde Kuehne, Horst Bischof
- Abstract要約: アクション認識システムは、テストデータの予期しない分散シフトに対して脆弱である。
本稿では,ビデオ行動認識モデルの共通分布シフトに対するテスト時間適応を提案する。
提案手法は,既存のテスト時間適応手法よりもかなりの性能向上を示した。
- 参考スコア(独自算出の注目度): 24.596473019563398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although action recognition systems can achieve top performance when
evaluated on in-distribution test points, they are vulnerable to unanticipated
distribution shifts in test data. However, test-time adaptation of video action
recognition models against common distribution shifts has so far not been
demonstrated. We propose to address this problem with an approach tailored to
spatio-temporal models that is capable of adaptation on a single video sample
at a step. It consists in a feature distribution alignment technique that
aligns online estimates of test set statistics towards the training statistics.
We further enforce prediction consistency over temporally augmented views of
the same test video sample. Evaluations on three benchmark action recognition
datasets show that our proposed technique is architecture-agnostic and able to
significantly boost the performance on both, the state of the art convolutional
architecture TANet and the Video Swin Transformer. Our proposed method
demonstrates a substantial performance gain over existing test-time adaptation
approaches in both evaluations of a single distribution shift and the
challenging case of random distribution shifts. Code will be available at
\url{https://github.com/wlin-at/ViTTA}.
- Abstract(参考訳): 動作認識システムは, 分配試験点の評価では最高性能を達成できるが, 予測外の分布変化に対して脆弱である。
しかし、ビデオアクション認識モデルの共通分布シフトに対するテスト時間適応は、今のところ実証されていない。
本稿では,1ステップで1つのビデオサンプルに適応可能な時空間モデルに適したアプローチでこの問題に対処することを提案する。
テストセット統計のオンライン見積もりをトレーニング統計にアライメントする機能分布アライメント技術で構成されている。
また,同じテストビデオサンプルの時間拡張ビューに対する予測整合性も強化した。
3つのベンチマーク動作認識データセットの評価結果から,提案手法はアーキテクチャ非依存であり,アート畳み込みアーキテクチャTANetとビデオスウィントランスフォーマーの両方の性能を大幅に向上させることができることが示された。
提案手法は,単一分布シフトの評価とランダム分布シフトのチャレンジケースの両方において,既存のテスト時間適応手法よりも実質的な性能向上を示す。
コードは \url{https://github.com/wlin-at/ViTTA} で入手できる。
関連論文リスト
- DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Protected Test-Time Adaptation via Online Entropy Matching: A Betting Approach [14.958884168060097]
オンライン自己学習によるテスト時間適応のための新しい手法を提案する。
提案手法は,マーチンガレットとオンライン学習の概念を組み合わせることで,分布変化に反応可能な検出ツールを構築する。
実験結果から, 分散シフト時のテスト時間精度は, 精度とキャリブレーションを保ちながら向上することが示された。
論文 参考訳(メタデータ) (2024-08-14T12:40:57Z) - Test-time Distribution Learning Adapter for Cross-modal Visual Reasoning [16.998833621046117]
テスト期間中に直接動作するTT-DNA(Test-Time Distribution LearNing Adapter)を提案する。
具体的には,ガウス分布を推定し,少数ショット支援画像の視覚的特徴をモデル化し,支援セットから知識を抽出する。
ヒトの物体相互作用の視覚的推論に関する広範な実験結果から,提案したTT-DNAは既存の最先端手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2024-03-10T01:34:45Z) - Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a
Large Foundational Video Understanding Model [0.0]
本研究では,ヒトの転倒検出作業における映像理解基盤モデルの性能について検討する。
トリミングされていないビデオの簡単なカットアップに依存する時間的行動の局所化法を実証する。
結果はリアルタイムアプリケーションに期待でき、HQFSDデータセットで最先端の0.96 F1スコアで、ビデオレベルでフォールを検出する。
論文 参考訳(メタデータ) (2024-01-29T16:37:00Z) - Adversarial Augmentation Training Makes Action Recognition Models More
Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。
そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。
提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-21T05:50:39Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Test-time Adaptation with Slot-Centric Models [63.981055778098444]
Slot-TTAは、半教師付きシーン分解モデルであり、シーンごとのテスト時間は、再構成やクロスビュー合成の目的に対する勾配降下を通じて適用される。
我々は、最先端の監視フィードフォワード検出器と代替テスト時間適応法に対して、配電性能が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-03-21T17:59:50Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。