論文の概要: Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks
- arxiv url: http://arxiv.org/abs/2209.09393v1
- Date: Tue, 20 Sep 2022 00:30:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:26:29.606571
- Title: Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks
- Title(参考訳): 行動認識における表現バイアスの軽減:アルゴリズムとベンチマーク
- Authors: Haodong Duan, Yue Zhao, Kai Chen, Yuanjun Xiong, Dahua Lin
- Abstract要約: ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
- 参考スコア(独自算出の注目度): 76.35271072704384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models have achieved excellent recognition results on
large-scale video benchmarks. However, they perform poorly when applied to
videos with rare scenes or objects, primarily due to the bias of existing video
datasets. We tackle this problem from two different angles: algorithm and
dataset. From the perspective of algorithms, we propose Spatial-aware
Multi-Aspect Debiasing (SMAD), which incorporates both explicit debiasing with
multi-aspect adversarial training and implicit debiasing with the spatial
actionness reweighting module, to learn a more generic representation invariant
to non-action aspects. To neutralize the intrinsic dataset bias, we propose
OmniDebias to leverage web data for joint training selectively, which can
achieve higher performance with far fewer web data. To verify the
effectiveness, we establish evaluation protocols and perform extensive
experiments on both re-distributed splits of existing datasets and a new
evaluation dataset focusing on the action with rare scenes. We also show that
the debiased representation can generalize better when transferred to other
datasets and tasks.
- Abstract(参考訳): ディープラーニングモデルは、大規模ビデオベンチマークで優れた認識結果を達成している。
しかし、既存のビデオデータセットのバイアスが原因で、希少なシーンやオブジェクトの動画に適用するとパフォーマンスが低下する。
我々はアルゴリズムとデータセットの2つの異なる角度からこの問題に取り組む。
アルゴリズムの観点からは,多視点対向トレーニングによる明示的偏りと空間行動強調モジュールによる暗黙的偏りの両方を取り入れた空間認識型多視点偏り(SMAD)を提案し,非作用面に不変なより汎用的な表現を学習する。
内在的なデータセットバイアスを中和するため,我々はwebデータを選択的に活用し,より少ないwebデータで高いパフォーマンスを実現するための大雑把さを提案する。
有効性を検証するため,評価プロトコルを確立し,既存データセットの再分散分割と,レアシーンでの動作に着目した新たな評価データセットの両方について広範な実験を行う。
また、デバイアス表現は他のデータセットやタスクに転送するとより一般化できることも示している。
関連論文リスト
- Model Debiasing by Learnable Data Augmentation [19.625915578646758]
本稿では,トレーニングを正規化可能なデータ拡張戦略を備えた,新しい2段階学習パイプラインを提案する。
合成および現実的なバイアス付きデータセットの実験は、最先端の分類精度を示し、競合する手法より優れている。
論文 参考訳(メタデータ) (2024-08-09T09:19:59Z) - Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and
Beyond [93.96982273042296]
視覚言語(VL)理解タスクは、複数の質問を通じて複雑な視覚シーンのモデルによる理解を評価する。
我々は、モデルが様々なVLタスクを適切に理解することなく正しく解決するために、ショートカットとして活用できる2つのデータセットバイアスを特定した。
本稿では,ADS(Adversarial Data Synthesis)を用いて,合成学習データと偏り評価データを生成する。
次に、サンプル内微分に着目して、合成したトレーニングデータ、特に対物データを利用するモデルを支援するために、サンプル内対物訓練(ICT)を導入する。
論文 参考訳(メタデータ) (2023-10-23T08:09:42Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Adaptive graph convolutional networks for weakly supervised anomaly
detection in videos [42.3118758940767]
本稿では,映像セグメント間のコンテキスト関係をモデル化するために,弱教師付き適応グラフ畳み込みネットワーク(WAGCN)を提案する。
各セグメントの異常確率スコアを生成する際に、他のビデオセグメントが現在のセグメントに与える影響を十分に検討する。
論文 参考訳(メタデータ) (2022-02-14T06:31:34Z) - Learning Bias-Invariant Representation by Cross-Sample Mutual
Information Minimization [77.8735802150511]
対象タスクが誤用したバイアス情報を除去するために,クロスサンプル対逆脱バイアス法(CSAD)を提案する。
相関測定は, 対向的偏り評価において重要な役割を担い, クロスサンプル型相互情報推定器によって行われる。
我々は,提案手法の最先端手法に対する利点を検証するために,公開データセットの徹底的な実験を行った。
論文 参考訳(メタデータ) (2021-08-11T21:17:02Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Self-supervised Video Representation Learning Using Inter-intra
Contrastive Framework [43.002621928500425]
ビデオから特徴表現を学習するための自己教師付き手法を提案する。
映像表現が重要であるので、負のサンプルを非負のサンプルによって拡張する。
学習した映像表現を用いて,映像検索と映像認識タスクの実験を行う。
論文 参考訳(メタデータ) (2020-08-06T09:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。