論文の概要: Red Carpet to Fight Club: Partially-supervised Domain Transfer for Face
Recognition in Violent Videos
- arxiv url: http://arxiv.org/abs/2009.07576v1
- Date: Wed, 16 Sep 2020 09:45:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 00:21:36.650663
- Title: Red Carpet to Fight Club: Partially-supervised Domain Transfer for Face
Recognition in Violent Videos
- Title(参考訳): レッドカーペット・トゥ・ファイト・クラブ:暴力ビデオにおける顔認識のための部分教師付きドメイン転送
- Authors: Yunus Can Bilge, Mehmet Kerim Yucel, Ramazan Gokberk Cinbis, Nazli
Ikizler-Cinbis, Pinar Duygulu
- Abstract要約: 種々の有害条件下でのクロスドメイン認識を研究するために,WildestFacesデータセットを導入した。
我々は、このクリーンで暴力的な認識タスクのための厳密な評価プロトコルを確立し、提案したデータセットと方法の詳細な分析を示す。
- 参考スコア(独自算出の注目度): 12.534785814117065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many real-world problems, there is typically a large discrepancy between
the characteristics of data used in training versus deployment. A prime example
is the analysis of aggression videos: in a criminal incidence, typically
suspects need to be identified based on their clean portrait-like photos,
instead of their prior video recordings. This results in three major
challenges; large domain discrepancy between violence videos and ID-photos, the
lack of video examples for most individuals and limited training data
availability. To mimic such scenarios, we formulate a realistic domain-transfer
problem, where the goal is to transfer the recognition model trained on clean
posed images to the target domain of violent videos, where training videos are
available only for a subset of subjects. To this end, we introduce the
WildestFaces dataset, tailored to study cross-domain recognition under a
variety of adverse conditions. We divide the task of transferring a recognition
model from the domain of clean images to the violent videos into two
sub-problems and tackle them using (i) stacked affine-transforms for
classifier-transfer, (ii) attention-driven pooling for temporal-adaptation. We
additionally formulate a self-attention based model for domain-transfer. We
establish a rigorous evaluation protocol for this clean-to-violent recognition
task, and present a detailed analysis of the proposed dataset and the methods.
Our experiments highlight the unique challenges introduced by the WildestFaces
dataset and the advantages of the proposed approach.
- Abstract(参考訳): 多くの実世界の問題では、トレーニングで使用されるデータとデプロイメントで使用されるデータには大きな違いがあります。
犯罪発生率において、一般的に容疑者は、以前のビデオ録音ではなく、きれいなポートレートのような写真に基づいて特定する必要がある。
これにより、暴力ビデオとID写真の間の大きなドメインの相違、ほとんどの個人に対するビデオ例の欠如、限られたトレーニングデータ可用性の3つの大きな課題が生じる。
このようなシナリオを模倣するために、我々は、クリーンポーズ画像に基づいて訓練された認識モデルを暴力的ビデオのターゲット領域に転送することを目的として、現実的なドメイン転送問題を定式化する。
この目的のために、さまざまな有害条件下でのクロスドメイン認識の研究に適したWildestFacesデータセットを紹介した。
認識モデルをクリーンな画像の領域から暴力的なビデオへ移行するタスクを2つのサブプロブレムに分割し,それらに取り組む。
(i)分類子変換のためのアフィン変換の積み重ね
(II)時間適応のための注意駆動プール
ドメイン・トランスファーのための自己注意に基づくモデルも定式化する。
本稿では,このクリーン・トゥ・バイオレント認識タスクのための厳密な評価プロトコルを確立し,提案するデータセットと手法の詳細な分析を行う。
実験では、WildestFacesデータセットで導入されたユニークな課題と、提案したアプローチの利点を強調した。
関連論文リスト
- Adversarial Attacks on Video Object Segmentation with Hard Region
Discovery [31.882369005280793]
ビデオオブジェクトのセグメンテーションは、ビデオ編集、自律運転、人間とロボットの相互作用など、様々なコンピュータビジョンタスクに適用されている。
ディープニューラルネットワークは、ほとんど人間の知覚できない摂動によって攻撃される入力である敵の例に対して脆弱である。
これは、入力ビデオへの小さな摂動が攻撃リスクをもたらすため、高要求タスクにおけるセキュリティ上の問題を引き起こす。
論文 参考訳(メタデータ) (2023-09-25T03:52:15Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Camera Alignment and Weighted Contrastive Learning for Domain Adaptation
in Video Person ReID [17.90248359024435]
人物再識別システム(ReID)は、大規模な完全ラベル画像データセットでトレーニングした場合、高い精度を達成することができる。
様々な運用状況(例えば、カメラの視点や照明など)に関連したドメインシフトは、パフォーマンスの大幅な低下に繋がる可能性がある。
本稿では、ビデオベースのReIDのための教師なしドメイン適応(UDA)に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-07T15:32:56Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Leveraging Real Talking Faces via Self-Supervision for Robust Forgery
Detection [112.96004727646115]
本研究では,実話を用いた顔操作映像の検出手法を開発した。
本手法は, クロスマニピュレーションの一般化とロバストネス実験における最先端性能を実現する。
以上の結果から、より堅牢な顔偽造検知器の開発には、自然ビデオと未表示ビデオの活用が有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2022-01-18T17:14:54Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Human Motion Transfer from Poses in the Wild [61.6016458288803]
人間の動き伝達の問題に対処し、基準映像からの動きを模倣する対象人物のための新しい動き映像を合成する。
推定ポーズを用いて2つのドメインをブリッジするビデオ間翻訳タスクである。
トレーニング中に見つからない線内ポーズシーケンスであっても、時間的に一貫性のある高品質なビデオを生成するための新しいポーズ・ツー・ビデオ翻訳フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T05:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。