論文の概要: SOAR: Scene-debiasing Open-set Action Recognition
- arxiv url: http://arxiv.org/abs/2309.01265v1
- Date: Sun, 3 Sep 2023 20:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 20:33:51.181484
- Title: SOAR: Scene-debiasing Open-set Action Recognition
- Title(参考訳): soar: シーンデバイアスなオープンセットアクション認識
- Authors: Yuanhao Zhai, Ziyi Liu, Zhenyu Wu, Yi Wu, Chunluan Zhou, David
Doermann, Junsong Yuan, Gang Hua
- Abstract要約: 本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
- 参考スコア(独自算出の注目度): 81.8198917049666
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep learning models have a risk of utilizing spurious clues to make
predictions, such as recognizing actions based on the background scene. This
issue can severely degrade the open-set action recognition performance when the
testing samples have different scene distributions from the training samples.
To mitigate this problem, we propose a novel method, called Scene-debiasing
Open-set Action Recognition (SOAR), which features an adversarial scene
reconstruction module and an adaptive adversarial scene classification module.
The former prevents the decoder from reconstructing the video background given
video features, and thus helps reduce the background information in feature
learning. The latter aims to confuse scene type classification given video
features, with a specific emphasis on the action foreground, and helps to learn
scene-invariant information. In addition, we design an experiment to quantify
the scene bias. The results indicate that the current open-set action
recognizers are biased toward the scene, and our proposed SOAR method better
mitigates such bias. Furthermore, our extensive experiments demonstrate that
our method outperforms state-of-the-art methods, and the ablation studies
confirm the effectiveness of our proposed modules.
- Abstract(参考訳): 深層学習モデルは、背景シーンに基づいて行動を認識するなど、素早い手がかりを利用して予測するリスクがある。
この問題は、テストサンプルがトレーニングサンプルと異なるシーン分布を持つ場合、オープンセットのアクション認識性能を著しく低下させる可能性がある。
そこで,本研究では,逆シーン再構築モジュールと適応逆シーン分類モジュールを特徴とする,シーンデバイアス型オープンセット動作認識(soar)と呼ばれる新しい手法を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、与えられた映像特徴のシーンタイプの分類を混同することを目的としており、シーン不変情報を学ぶのに役立つ。
さらに,シーンバイアスを定量化する実験を設計する。
結果は、現在のオープンセットアクション認識器が現場に偏りがあることを示し、提案したSOARメソッドはそのような偏りを緩和する。
さらに,本手法が最先端の手法に勝ることを示し,提案するモジュールの有効性をアブレーション実験により確認した。
関連論文リスト
- Object-Centric Latent Action Learning [70.3173534658611]
本稿では,VideoSaur と LAPO に基づくオブジェクト中心の潜在行動学習手法を提案する。
無関係な背景雑音から因果的エージェント・オブジェクトの相互作用を効果的に切り離し、トラクタによる性能劣化を低減する。
Distracting Control Suite を用いた予備実験では、オブジェクト分解に基づく遅延動作事前学習により、x2.7 による推論遅延動作の品質が向上し、ラベル付きアクションの小さなセットによる下流微調整の効率が向上し、平均 x2.6 での戻り率が向上することが示された。
論文 参考訳(メタデータ) (2025-02-13T11:27:05Z) - ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。
本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。
我々は,提案手法を確立された背景および前景バイアスプロトコル上で評価し,新しい最先端技術を設定し,HMDB51上で12%以上のデバイアス性能を向上した。
論文 参考訳(メタデータ) (2025-01-31T20:47:06Z) - Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a
Large Foundational Video Understanding Model [0.0]
本研究では,ヒトの転倒検出作業における映像理解基盤モデルの性能について検討する。
トリミングされていないビデオの簡単なカットアップに依存する時間的行動の局所化法を実証する。
結果はリアルタイムアプリケーションに期待でき、HQFSDデータセットで最先端の0.96 F1スコアで、ビデオレベルでフォールを検出する。
論文 参考訳(メタデータ) (2024-01-29T16:37:00Z) - DEVIAS: Learning Disentangled Video Representations of Action and Scene [3.336126457178601]
ビデオ認識モデルは、トレーニングデータにおけるアクションとシーンの急激な相関により、シーンバイアスのアクション表現を学習することが多い。
本稿では,アンタングル型エンコーダデコーダアーキテクチャを提案し,単一のモデルを用いてアンタングル型アクションとシーン表現を学習する。
提案手法は,UCF-101,Kinetics-400,HVUの各データセットと,SCUBA,HAT,HVUの各データセットに対して厳密に検証した。
論文 参考訳(メタデータ) (2023-11-30T18:58:44Z) - Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。
我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。
本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:16:50Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Evidential Deep Learning for Open Set Action Recognition [36.350348194248014]
本研究では,行動認識問題を顕在的深層学習(EDL)の観点から定式化する。
コントラスト学習により学習した表現を劣化させるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2021-07-21T15:45:37Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。