論文の概要: Adversarial Domain Adaptation for Action Recognition Around the Clock
- arxiv url: http://arxiv.org/abs/2210.17412v1
- Date: Tue, 25 Oct 2022 01:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 14:40:55.935288
- Title: Adversarial Domain Adaptation for Action Recognition Around the Clock
- Title(参考訳): 時計周辺における行動認識のための逆領域適応
- Authors: Anwaar Ulhaq
- Abstract要約: 本稿では,ドメイン適応に基づく行動認識手法を提案する。
クロスドメイン設定での敵対的学習を使用して、クロスドメインアクション認識を学習する。
InFARおよびXD145アクションデータセット上でのSOTAパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 0.7614628596146599
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to the numerous potential applications in visual surveillance and
nighttime driving, recognizing human action in low-light conditions remains a
difficult problem in computer vision. Existing methods separate action
recognition and dark enhancement into two distinct steps to accomplish this
task. However, isolating the recognition and enhancement impedes end-to-end
learning of the space-time representation for video action classification. This
paper presents a domain adaptation-based action recognition approach that uses
adversarial learning in cross-domain settings to learn cross-domain action
recognition. Supervised learning can train it on a large amount of labeled data
from the source domain (daytime action sequences). However, it uses deep domain
invariant features to perform unsupervised learning on many unlabelled data
from the target domain (night-time action sequences). The resulting augmented
model, named 3D-DiNet can be trained using standard backpropagation with an
additional layer. It achieves SOTA performance on InFAR and XD145 actions
datasets.
- Abstract(参考訳): 視覚監視や夜間運転に多くの応用があるため、低照度環境での人間の行動を認識することはコンピュータビジョンでは難しい問題である。
既存の手法では、アクション認識とダークエンハンスメントを2つの異なるステップに分けて処理を行う。
しかし、認識と拡張の分離は、ビデオアクション分類の時空間表現のエンドツーエンド学習を阻害する。
本稿では,ドメイン間動作認識の学習において,ドメイン間動作認識の学習に対逆学習を用いるドメイン適応に基づく行動認識手法を提案する。
教師付き学習は、ソースドメイン(日中のアクションシーケンス)から大量のラベル付きデータをトレーニングすることができる。
しかし、対象領域(夜間のアクションシーケンス)からラベルのない多くのデータに対して教師なし学習を実行するために、深いドメイン不変機能を使用する。
3D-DiNetという名前の強化モデルは、標準バックプロパゲーションと追加レイヤを使ってトレーニングすることができる。
InFARおよびXD145アクションデータセット上でのSOTAパフォーマンスを実現する。
関連論文リスト
- ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding [40.60371529725805]
本稿では,機能適応のためのドメイン内ファインチューニングのパラダイムを提案する。
本稿では, VLMのイメージエンコーダにアクションキューを注入し, アクションに敏感なパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - DA-CIL: Towards Domain Adaptive Class-Incremental 3D Object Detection [2.207918236777924]
本稿では,新しい3次元ドメイン適応型クラスインクリメンタルオブジェクト検出フレームワークDA-CILを提案する。
トレーニング分布を多様化する複数の拡張ドメインを構築するために、新しいデュアルドメインコピーペースト拡張法を設計する。
各種データセットを用いた実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-05T06:45:27Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Audio-Adaptive Activity Recognition Across Video Domains [112.46638682143065]
ドメイン間のばらつきが少なく、どのアクティビティが起こっていないかを確実に示すことができるので、ドメイン適応のためにアクティビティサウンドを活用します。
視覚特徴表現を識別的に調整するオーディオ適応型エンコーダと学習方法を提案する。
また、アクターシフトという新たなタスクを対応するオーディオ・ビジュアル・データセットで導入し、アクターの出現が劇的に変化する状況において、我々の手法に挑戦する。
論文 参考訳(メタデータ) (2022-03-27T08:15:20Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。