論文の概要: SOAR: Scene-debiasing Open-set Action Recognition
- arxiv url: http://arxiv.org/abs/2309.01265v1
- Date: Sun, 3 Sep 2023 20:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:33:51.181484
- Title: SOAR: Scene-debiasing Open-set Action Recognition
- Title(参考訳): soar: シーンデバイアスなオープンセットアクション認識
- Authors: Yuanhao Zhai, Ziyi Liu, Zhenyu Wu, Yi Wu, Chunluan Zhou, David
Doermann, Junsong Yuan, Gang Hua
- Abstract要約: 本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
- 参考スコア(独自算出の注目度): 81.8198917049666
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning models have a risk of utilizing spurious clues to make
predictions, such as recognizing actions based on the background scene. This
issue can severely degrade the open-set action recognition performance when the
testing samples have different scene distributions from the training samples.
To mitigate this problem, we propose a novel method, called Scene-debiasing
Open-set Action Recognition (SOAR), which features an adversarial scene
reconstruction module and an adaptive adversarial scene classification module.
The former prevents the decoder from reconstructing the video background given
video features, and thus helps reduce the background information in feature
learning. The latter aims to confuse scene type classification given video
features, with a specific emphasis on the action foreground, and helps to learn
scene-invariant information. In addition, we design an experiment to quantify
the scene bias. The results indicate that the current open-set action
recognizers are biased toward the scene, and our proposed SOAR method better
mitigates such bias. Furthermore, our extensive experiments demonstrate that
our method outperforms state-of-the-art methods, and the ablation studies
confirm the effectiveness of our proposed modules.
- Abstract(参考訳): 深層学習モデルは、背景シーンに基づいて行動を認識するなど、素早い手がかりを利用して予測するリスクがある。
この問題は、テストサンプルがトレーニングサンプルと異なるシーン分布を持つ場合、オープンセットのアクション認識性能を著しく低下させる可能性がある。
そこで,本研究では,逆シーン再構築モジュールと適応逆シーン分類モジュールを特徴とする,シーンデバイアス型オープンセット動作認識(soar)と呼ばれる新しい手法を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、与えられた映像特徴のシーンタイプの分類を混同することを目的としており、シーン不変情報を学ぶのに役立つ。
さらに,シーンバイアスを定量化する実験を設計する。
結果は、現在のオープンセットアクション認識器が現場に偏りがあることを示し、提案したSOARメソッドはそのような偏りを緩和する。
さらに,本手法が最先端の手法に勝ることを示し,提案するモジュールの有効性をアブレーション実験により確認した。
関連論文リスト
- Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection [32.843848754881364]
アクション検出は、ビデオの中で空間的および時間的に人間の行動を検出し(認識し、局所化する)ことを目的としている。
既存のアプローチでは、アクション検知器を訓練し、一定のアクションカテゴリのビデオでテストするクローズドセットの設定に重点を置いている。
本稿では,大規模視覚言語モデルの固有意味とローカライズ性を利用したOpenMixerを提案する。
論文 参考訳(メタデータ) (2024-11-17T00:39:59Z) - Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a
Large Foundational Video Understanding Model [0.0]
本研究では,ヒトの転倒検出作業における映像理解基盤モデルの性能について検討する。
トリミングされていないビデオの簡単なカットアップに依存する時間的行動の局所化法を実証する。
結果はリアルタイムアプリケーションに期待でき、HQFSDデータセットで最先端の0.96 F1スコアで、ビデオレベルでフォールを検出する。
論文 参考訳(メタデータ) (2024-01-29T16:37:00Z) - DEVIAS: Learning Disentangled Video Representations of Action and Scene [3.336126457178601]
ビデオ認識モデルは、トレーニングデータにおけるアクションとシーンの急激な相関により、シーンバイアスのアクション表現を学習することが多い。
本稿では,アンタングル型エンコーダデコーダアーキテクチャを提案し,単一のモデルを用いてアンタングル型アクションとシーン表現を学習する。
提案手法は,UCF-101,Kinetics-400,HVUの各データセットと,SCUBA,HAT,HVUの各データセットに対して厳密に検証した。
論文 参考訳(メタデータ) (2023-11-30T18:58:44Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:16:50Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Evidential Deep Learning for Open Set Action Recognition [36.350348194248014]
本研究では,行動認識問題を顕在的深層学習(EDL)の観点から定式化する。
コントラスト学習により学習した表現を劣化させるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2021-07-21T15:45:37Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。