論文の概要: Evaluating and Mitigating Static Bias of Action Representations in the
Background and the Foreground
- arxiv url: http://arxiv.org/abs/2211.12883v1
- Date: Wed, 23 Nov 2022 11:40:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:22:23.947744
- Title: Evaluating and Mitigating Static Bias of Action Representations in the
Background and the Foreground
- Title(参考訳): 背景と前景における行動表現の静的バイアスの評価と軽減
- Authors: Haoxin Li, Yue Wu, Yuan Liu, Hanwang Zhang, Boyang Li
- Abstract要約: ビデオアクション認識のためのディープニューラルネットワークは、バックグラウンドやオブジェクトなどのショートカット静的特徴を利用することを容易に学習する。
バイアスを誘発するビデオフレームを自動的に識別する,シンプルで効果的なビデオデータ拡張手法であるStillMixを提案する。
StillMix は SCUB の OOD 動作認識における TSM と Video Swin Transformer の精度を 10% 以上向上することを示す。
- 参考スコア(独自算出の注目度): 54.00557333561393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks for video action recognition easily learn to utilize
shortcut static features, such as background and objects instead of motion
features. This results in poor generalization to atypical videos such as soccer
playing on concrete surfaces (instead of soccer fields). However, due to the
rarity of out-of-distribution (OOD) data, quantitative evaluation of static
bias remains a difficult task. In this paper, we synthesize new sets of
benchmarks to evaluate static bias of action representations, including SCUB
for static cues in the background, and SCUF for static cues in the foreground.
Further, we propose a simple yet effective video data augmentation technique,
StillMix, that automatically identifies bias-inducing video frames; unlike
similar augmentation techniques, StillMix does not need to enumerate or
precisely segment biased content. With extensive experiments, we quantitatively
compare and analyze existing action recognition models on the created
benchmarks to reveal their characteristics. We validate the effectiveness of
StillMix and show that it improves TSM (Lin, Gan, and Han 2021) and Video Swin
Transformer (Liu et al. 2021) by more than 10% of accuracy on SCUB for OOD
action recognition.
- Abstract(参考訳): ビデオアクション認識のためのディープニューラルネットワークは、モーション機能の代わりに背景やオブジェクトなどのショートカット静的機能を利用するように簡単に学習する。
この結果、(サッカー場の代わりに)コンクリート表面で遊ぶサッカーのような非定型ビデオへの一般化が不十分になる。
しかし,out-of-distribution (ood) データの希薄さから,静的バイアスの定量的評価はいまだに難しい課題である。
本稿では,背景の静的なキューに対するSCUBや前景の静的なキューに対するSCUFなど,アクション表現の静的なバイアスを評価するための新しいベンチマークセットを合成する。
さらに, バイアスを誘発するビデオフレームを自動的に識別する, 単純かつ効果的なビデオデータ拡張手法であるStillMixを提案する。
広範囲な実験により,既存の行動認識モデルを定量的に比較分析し,その特徴を明らかにする。
StillMix の有効性を検証するとともに, SCUB の OOD 動作認識における TSM (Lin, Gan, Han 2021) と Video Swin Transformer (Liu et al. 2021) の精度を 10% 以上向上することを示した。
関連論文リスト
- CosFairNet:A Parameter-Space based Approach for Bias Free Learning [1.9116784879310025]
バイアス付きデータに基づいてトレーニングされたディープニューラルネットワークは、意図しない推論ルールを不注意に学習することが多い。
本稿では,モデルのパラメータ空間内で直接バイアスに対処する新しい手法を提案する。
各種合成および実世界のデータセットにおいて,分類精度の向上と偏りの低減効果を示す。
論文 参考訳(メタデータ) (2024-10-19T13:06:40Z) - Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy
for Temporal Sentence Grounding in Video [67.24316233946381]
TSGV(Temporal Sentence Grounding in Video)は、データセットバイアスの問題に悩まされている。
偏りを伴うサンプル合成と逆行性除去脱バイアス戦略(BSSARD)を提案する。
論文 参考訳(メタデータ) (2024-01-15T09:59:43Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文 参考訳(メタデータ) (2023-09-03T20:20:48Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Quantifying and Learning Static vs. Dynamic Information in Deep Spatiotemporal Networks [29.47784194895489]
アクション認識,自動ビデオオブジェクト分割(AVOS),ビデオインスタンス分割(VIS)について検討した。
ほとんどの検査されたモデルは静的情報に偏っている。
ダイナミックスに偏りがあると仮定されるいくつかのデータセットは、実際には静的情報に偏りがある。
論文 参考訳(メタデータ) (2022-11-03T13:17:53Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Suppressing Static Visual Cues via Normalizing Flows for Self-Supervised
Video Representation Learning [7.27708818665289]
本稿では,自己教師付きビデオ表現学習における確率的解析に基づく静的視覚的手がかり(SSVC)の抑制手法を提案する。
ビデオ中の静的因子をランダム変数としてモデル化することにより、各潜伏変数の条件分布がシフトし、正規化される。
最後に、ポジティブペアは、静的なキューに対する表現バイアスの問題を軽減するために、対照的な学習のためのモーション保存ビデオによって構成される。
論文 参考訳(メタデータ) (2021-12-07T16:21:22Z) - Motion-aware Self-supervised Video Representation Learning via
Foreground-background Merging [19.311818681787845]
我々は、選択したビデオの前景領域を背景に構成するフォアグラウンド・バックグラウンド・マージング(FAME)を提案する。
FAMEは、様々なバックボーンを用いて、異なる下流タスクのパフォーマンスを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-30T13:45:26Z) - VideoMix: Rethinking Data Augmentation for Video Classification [29.923635550986997]
最新のビデオアクション分類器は、しばしばオーバーフィットに苦しむ。
オーバーフィッティング問題に対処するための最近のデータ拡張戦略が報告されている。
VideoMixは、モデルがオブジェクトやシーンのバイアスを越えて学習し、アクション認識のためのより堅牢な手がかりを抽出する。
論文 参考訳(メタデータ) (2020-12-07T05:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。