論文の概要: Domain Generalization for Improved Human Activity Recognition in Office Space Videos Using Adaptive Pre-processing
- arxiv url: http://arxiv.org/abs/2503.12678v1
- Date: Sun, 16 Mar 2025 22:33:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:51.125719
- Title: Domain Generalization for Improved Human Activity Recognition in Office Space Videos Using Adaptive Pre-processing
- Title(参考訳): 適応的前処理を用いたオフィス空間ビデオにおけるヒューマンアクティビティ認識のためのドメイン一般化
- Authors: Partho Ghosh, Raisa Bentay Hossain, Mohammad Zunaed, Taufiq Hasan,
- Abstract要約: 本稿では,環境変動の中でのオフィス活動の認識に焦点を当てた。
本稿では,ビデオエンコーダに適用可能な3つの前処理手法を提案する。
提案手法は未確認領域における精度,精度,リコール,F1スコアを著しく向上させ,多様なビデオデータソースを用いた実世界のシナリオにおける適応性を強調した。
- 参考スコア(独自算出の注目度): 2.45990890510584
- License:
- Abstract: Automatic video activity recognition is crucial across numerous domains like surveillance, healthcare, and robotics. However, recognizing human activities from video data becomes challenging when training and test data stem from diverse domains. Domain generalization, adapting to unforeseen domains, is thus essential. This paper focuses on office activity recognition amidst environmental variability. We propose three pre-processing techniques applicable to any video encoder, enhancing robustness against environmental variations. Our study showcases the efficacy of MViT, a leading state-of-the-art video classification model, and other video encoders combined with our techniques, outperforming state-of-the-art domain adaptation methods. Our approach significantly boosts accuracy, precision, recall and F1 score on unseen domains, emphasizing its adaptability in real-world scenarios with diverse video data sources. This method lays a foundation for more reliable video activity recognition systems across heterogeneous data domains.
- Abstract(参考訳): 監視、医療、ロボット工学など、多くの分野において、ビデオの自動アクティビティ認識が不可欠だ。
しかし,映像データから人的活動を認識することは,訓練やテストデータが多様な領域に由来する場合に困難になる。
したがって、予期せぬ領域に適応する領域一般化が不可欠である。
本稿では,環境変動の中でのオフィス活動の認識に焦点を当てた。
本稿では,ビデオエンコーダに適用可能な3つの前処理手法を提案する。
本研究は、最先端の映像分類モデルであるMViTと、我々の技術と組み合わせたビデオエンコーダの有効性を示す。
提案手法は未確認領域における精度,精度,リコール,F1スコアを著しく向上させ,多様なビデオデータソースを用いた実世界のシナリオにおける適応性を強調した。
この手法は、異種データ領域にまたがるより信頼性の高い映像活動認識システムの基礎となる。
関連論文リスト
- Feature Based Methods in Domain Adaptation for Object Detection: A Review Paper [0.6437284704257459]
ドメイン適応は、異なるデータ分布を持つターゲットドメインにデプロイされた場合、機械学習モデルの性能を向上させることを目的としている。
本総説では, 対人学習, 相違に基づく多分野, 教師学生, アンサンブル, ビジョン言語モデルなど, ドメイン適応のための高度な方法論を考察する。
特に合成ドメインシフトを含むシナリオにおいて、ラベル付きデータへの依存を最小限に抑える戦略に特に注意が払われる。
論文 参考訳(メタデータ) (2024-12-23T06:34:23Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Unsupervised domain-adaptive person re-identification with multi-camera
constraints [0.0]
ドメインギャップを低減するための環境制約付き適応ネットワークを提案する。
提案手法は,環境から取得した個人識別ラベルを伴わない人ペア情報をモデルトレーニングに組み込む。
本研究では,パフォーマンス向上に寄与するペアから適切な人物を選択する手法を開発する。
論文 参考訳(メタデータ) (2022-10-25T13:12:28Z) - Unsupervised Domain Adaptation for Video Transformers in Action
Recognition [76.31442702219461]
ビデオ行動認識のためのシンプルで斬新なUDA手法を提案する。
私たちのアプローチでは、ターゲットドメインをより一般化した堅牢なソースモデルを構築しています。
UDAのための2つのビデオアクションベンチマークの認識結果について報告する。
論文 参考訳(メタデータ) (2022-07-26T12:17:39Z) - Learning Cross-modal Contrastive Features for Video Domain Adaptation [138.75196499580804]
本稿では、クロスモーダルとクロスドメインの特徴表現を同時に正規化する、ビデオドメイン適応のための統合フレームワークを提案する。
具体的には、ドメインの各モダリティを視点として扱い、コントラスト学習手法を適切に設計されたサンプリング戦略で活用する。
論文 参考訳(メタデータ) (2021-08-26T18:14:18Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。