論文の概要: Can masking background and object reduce static bias for zero-shot action recognition?
- arxiv url: http://arxiv.org/abs/2501.12681v1
- Date: Wed, 22 Jan 2025 06:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:41.215169
- Title: Can masking background and object reduce static bias for zero-shot action recognition?
- Title(参考訳): 背景と物体のマスキングはゼロショット動作認識の静的バイアスを軽減するか?
- Authors: Takumi Fukuzawa, Kensho Hara, Hirokatsu Kataoka, Toru Tamaki,
- Abstract要約: アクション認識モデルは、外観ではなく、アクション自体を表現する必要がある。
CLIPモデルを用いたゼロショット動作認識における静的バイアスの影響について検討する。
- 参考スコア(独自算出の注目度): 10.287982112576616
- License:
- Abstract: In this paper, we address the issue of static bias in zero-shot action recognition. Action recognition models need to represent the action itself, not the appearance. However, some fully-supervised works show that models often rely on static appearances, such as the background and objects, rather than human actions. This issue, known as static bias, has not been investigated for zero-shot. Although CLIP-based zero-shot models are now common, it remains unclear if they sufficiently focus on human actions, as CLIP primarily captures appearance features related to languages. In this paper, we investigate the influence of static bias in zero-shot action recognition with CLIP-based models. Our approach involves masking backgrounds, objects, and people differently during training and validation. Experiments with masking background show that models depend on background bias as their performance decreases for Kinetics400. However, for Mimetics, which has a weak background bias, masking the background leads to improved performance even if the background is masked during validation. Furthermore, masking both the background and objects in different colors improves performance for SSv2, which has a strong object bias. These results suggest that masking the background or objects during training prevents models from overly depending on static bias and makes them focus more on human action.
- Abstract(参考訳): 本稿では,ゼロショット動作認識における静的バイアスの問題に対処する。
アクション認識モデルは、外観ではなく、アクション自体を表現する必要がある。
しかしながら、完全に教師された作品の中には、モデルが人間の行動ではなく、背景やオブジェクトのような静的な外見にしばしば依存していることが示されている。
この問題は静的バイアスと呼ばれ、ゼロショットでは研究されていない。
CLIPベースのゼロショットモデルは現在では一般的だが、CLIPが主に言語に関連する外観の特徴を捉えているため、人間のアクションに十分にフォーカスするかどうかは不明だ。
本稿では,CLIPモデルを用いたゼロショット動作認識における静的バイアスの影響について検討する。
私たちのアプローチでは、トレーニングやバリデーションにおいて、バックグラウンドやオブジェクト、人々を異なる方法でマスクします。
Kinetics400のパフォーマンスが低下するにつれて、モデルは背景バイアスに依存する。
しかし、バックグラウンドバイアスが弱いMimeticsでは、バックグラウンドをマスキングすると、バリデーション中にバックグラウンドをマスキングしてもパフォーマンスが向上する。
さらに、背景とオブジェクトを異なる色でマスキングすることで、強いオブジェクトバイアスを持つSSv2のパフォーマンスが向上する。
これらの結果は、トレーニング中に背景や物体を隠蔽することで、モデルが静的バイアスに大きく依存することを防ぎ、人間の行動にもっと焦点を合わせることを示唆している。
関連論文リスト
- Visual Context-Aware Person Fall Detection [52.49277799455569]
画像中の個人とオブジェクトを半自動分離するセグメンテーションパイプラインを提案する。
ベッド、椅子、車椅子などの背景オブジェクトは、転倒検知システムに挑戦し、誤ったポジティブアラームを引き起こす。
トレーニング中のオブジェクト固有のコンテキスト変換が、この課題を効果的に軽減することを示す。
論文 参考訳(メタデータ) (2024-04-11T19:06:36Z) - Mitigating and Evaluating Static Bias of Action Representations in the
Background and the Foreground [59.916365866505636]
静的特徴のショートカットは、運動特徴の学習を妨げる可能性があるため、分布外一般化が不十分になる。
本稿では,ビデオの静的および移動部分からの信号に矛盾するテストビデオを作成することにより,前景の静的バイアスの存在を実証的に検証する。
StillMixは、2D参照ネットワークを使ってバイアスを誘発するビデオフレームを特定し、トレーニング用のビデオと混ぜることで、効果的なバイアス抑制を提供する。
論文 参考訳(メタデータ) (2022-11-23T11:40:02Z) - CLAD: A Contrastive Learning based Approach for Background Debiasing [43.0296255565593]
我々は,CNNにおける背景バイアスを軽減するために,対照的な学習に基づくアプローチを導入する。
前回のベンチマークを4.1%で上回り、バックグラウンドチャレンジデータセットで最先端の結果を得た。
論文 参考訳(メタデータ) (2022-10-06T08:33:23Z) - Myope Models -- Are face presentation attack detection models
short-sighted? [3.4376560669160394]
プレゼンテーション攻撃は生体認証システムへの繰り返しの脅威であり、インポスタはこれらのシステムをバイパスしようとする。
本研究は,作物と無作為の顔提示攻撃検出(PAD)モデルの比較研究である。
その結果,画像に背景が存在する場合,その性能は一貫して良好であることがわかった。
論文 参考訳(メタデータ) (2021-11-22T11:28:44Z) - Unravelling the Effect of Image Distortions for Biased Prediction of
Pre-trained Face Recognition Models [86.79402670904338]
画像歪みの存在下での4つの最先端深層顔認識モデルの性能評価を行った。
我々は、画像歪みが、異なるサブグループ間でのモデルの性能ギャップと関係していることを観察した。
論文 参考訳(メタデータ) (2021-08-14T16:49:05Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Static object detection and segmentation in videos based on dual
foregrounds difference with noise filtering [0.0]
本稿では,映像中の静止物体検出とセグメンテーション手法について述べる。
提案手法は, 岩盤ブレーカー局に適用し, 実データ, 合成データ, および2つの公開データを用いて有効に検証した。
論文 参考訳(メタデータ) (2020-12-19T15:01:59Z) - Noise or Signal: The Role of Image Backgrounds in Object Recognition [93.55720207356603]
我々は、ImageNetイメージ上の前景と背景信号をアンタングリングするためのツールキットを作成する。
a)モデルが背景のみに依存して非自明な精度が得られること、(b)モデルが正しく分類された前景が存在する場合でも、しばしば画像の分類を誤っていること、が分かる。
論文 参考訳(メタデータ) (2020-06-17T16:54:43Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。