Fugu-MT 論文翻訳(概要): SOAR: Scene-debiasing Open-set Action Recognition

論文の概要: SOAR: Scene-debiasing Open-set Action Recognition

arxiv url: http://arxiv.org/abs/2309.01265v1
Date: Sun, 3 Sep 2023 20:20:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 20:33:51.181484
Title: SOAR: Scene-debiasing Open-set Action Recognition
Title（参考訳）: soar: シーンデバイアスなオープンセットアクション認識
Authors: Yuanhao Zhai, Ziyi Liu, Zhenyu Wu, Yi Wu, Chunluan Zhou, David Doermann, Junsong Yuan, Gang Hua
Abstract要約: 本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
参考スコア（独自算出の注目度）: 81.8198917049666
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deep learning models have a risk of utilizing spurious clues to make predictions, such as recognizing actions based on the background scene. This issue can severely degrade the open-set action recognition performance when the testing samples have different scene distributions from the training samples. To mitigate this problem, we propose a novel method, called Scene-debiasing Open-set Action Recognition (SOAR), which features an adversarial scene reconstruction module and an adaptive adversarial scene classification module. The former prevents the decoder from reconstructing the video background given video features, and thus helps reduce the background information in feature learning. The latter aims to confuse scene type classification given video features, with a specific emphasis on the action foreground, and helps to learn scene-invariant information. In addition, we design an experiment to quantify the scene bias. The results indicate that the current open-set action recognizers are biased toward the scene, and our proposed SOAR method better mitigates such bias. Furthermore, our extensive experiments demonstrate that our method outperforms state-of-the-art methods, and the ablation studies confirm the effectiveness of our proposed modules.
Abstract（参考訳）: 深層学習モデルは、背景シーンに基づいて行動を認識するなど、素早い手がかりを利用して予測するリスクがある。この問題は、テストサンプルがトレーニングサンプルと異なるシーン分布を持つ場合、オープンセットのアクション認識性能を著しく低下させる可能性がある。そこで,本研究では,逆シーン再構築モジュールと適応逆シーン分類モジュールを特徴とする,シーンデバイアス型オープンセット動作認識(soar)と呼ばれる新しい手法を提案する。前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。後者は、アクションフォアグラウンドに特に重点を置いて、与えられた映像特徴のシーンタイプの分類を混同することを目的としており、シーン不変情報を学ぶのに役立つ。さらに,シーンバイアスを定量化する実験を設計する。結果は、現在のオープンセットアクション認識器が現場に偏りがあることを示し、提案したSOARメソッドはそのような偏りを緩和する。さらに,本手法が最先端の手法に勝ることを示し,提案するモジュールの有効性をアブレーション実験により確認した。

関連論文リスト

Object-Centric Latent Action Learning [70.3173534658611]
本稿では,VideoSaur と LAPO に基づくオブジェクト中心の潜在行動学習手法を提案する。無関係な背景雑音から因果的エージェント・オブジェクトの相互作用を効果的に切り離し、トラクタによる性能劣化を低減する。 Distracting Control Suite を用いた予備実験では、オブジェクト分解に基づく遅延動作事前学習により、x2.7 による推論遅延動作の品質が向上し、ラベル付きアクションの小さなセットによる下流微調整の効率が向上し、平均 x2.6 での戻り率が向上することが示された。
論文参考訳（メタデータ） (2025-02-13T11:27:05Z)
ALBAR: Adversarial Learning approach to mitigate Biases in Action Recognition [52.537021302246664]
行動認識モデルは、しばしば背景バイアス(背景の手がかりに基づく行動の推測)と前景バイアス(主題の外観に依存する)に悩まされる。本稿では,前景や背景のバイアスを,バイアス特性の専門知識を必要とせずに軽減する,新たな対人訓練手法であるALBARを提案する。我々は,提案手法を確立された背景と前景のバイアスプロトコル上で評価し,新しい最先端のバイアスプロトコルを設定し,HMDB51では12%以上のデバイアス性能を向上した。
論文参考訳（メタデータ） (2025-01-31T20:47:06Z)
Exploiting VLM Localizability and Semantics for Open Vocabulary Action Detection [32.843848754881364]
アクション検出は、ビデオの中で空間的および時間的に人間の行動を検出し(認識し、局所化する)ことを目的としている。既存のアプローチでは、アクション検知器を訓練し、一定のアクションカテゴリのビデオでテストするクローズドセットの設定に重点を置いている。本稿では,大規模視覚言語モデルの固有意味とローカライズ性を利用したOpenMixerを提案する。
論文参考訳（メタデータ） (2024-11-17T00:39:59Z)
Cutup and Detect: Human Fall Detection on Cutup Untrimmed Videos Using a Large Foundational Video Understanding Model [0.0]
本研究では,ヒトの転倒検出作業における映像理解基盤モデルの性能について検討する。トリミングされていないビデオの簡単なカットアップに依存する時間的行動の局所化法を実証する。結果はリアルタイムアプリケーションに期待でき、HQFSDデータセットで最先端の0.96 F1スコアで、ビデオレベルでフォールを検出する。
論文参考訳（メタデータ） (2024-01-29T16:37:00Z)
DEVIAS: Learning Disentangled Video Representations of Action and Scene [3.336126457178601]
ビデオ認識モデルは、トレーニングデータにおけるアクションとシーンの急激な相関により、シーンバイアスのアクション表現を学習することが多い。本稿では,アンタングル型エンコーダデコーダアーキテクチャを提案し,単一のモデルを用いてアンタングル型アクションとシーン表現を学習する。提案手法は,UCF-101,Kinetics-400,HVUの各データセットと,SCUBA,HAT,HVUの各データセットに対して厳密に検証した。
論文参考訳（メタデータ） (2023-11-30T18:58:44Z)
DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文参考訳（メタデータ） (2023-04-01T08:06:43Z)
Simplifying Open-Set Video Domain Adaptation with Contrastive Learning [16.72734794723157]
ラベル付きデータセットから非ラベル付きデータセットに予測モデルを適用するために、教師なしのビデオドメイン適応手法が提案されている。我々は、OUVDA(Open-set Video Domain adapt)と呼ばれるより現実的なシナリオに対処し、ターゲットデータセットはソースと共有されていない"未知"セマンティックカテゴリを含む。本稿では,ビデオデータ中の時間情報を自由に利用することで,特徴空間をよりよくクラスタ化できるビデオ指向の時間的コントラスト損失を提案する。
論文参考訳（メタデータ） (2023-01-09T13:16:50Z)
Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文参考訳（メタデータ） (2022-09-20T00:30:35Z)
Evidential Deep Learning for Open Set Action Recognition [36.350348194248014]
本研究では,行動認識問題を顕在的深層学習(EDL)の観点から定式化する。コントラスト学習により学習した表現を劣化させるプラグイン・アンド・プレイ・モジュールを提案する。
論文参考訳（メタデータ） (2021-07-21T15:45:37Z)
Robust Unsupervised Video Anomaly Detection by Multi-Path Frame Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文参考訳（メタデータ） (2020-11-05T11:34:12Z)
Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文参考訳（メタデータ） (2020-10-20T03:06:20Z)
Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文参考訳（メタデータ） (2020-07-21T10:45:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。