論文の概要: Dual-Triplet Metric Learning for Unsupervised Domain Adaptation in
Video-Based Face Recognition
- arxiv url: http://arxiv.org/abs/2002.04206v1
- Date: Tue, 11 Feb 2020 05:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 02:42:35.316303
- Title: Dual-Triplet Metric Learning for Unsupervised Domain Adaptation in
Video-Based Face Recognition
- Title(参考訳): ビデオベース顔認識における教師なしドメイン適応のためのデュアルトリプレットメトリック学習
- Authors: George Ekladious, Hugo Lemoine, Eric Granger, Kaveh Kamali, Salim
Moudache
- Abstract要約: 新しいビデオカメラでキャプチャしたラベルのないトラックレットを用いて、シームズネットワークのCNN埋め込みに適応する新しいディープドメイン適応(DA)法を提案する。
提案手法は,異なるトレーニングシナリオ下での深層シームズネットワークのトレーニングに使用される。
- 参考スコア(独自算出の注目度): 8.220945563455848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The scalability and complexity of deep learning models remains a key issue in
many of visual recognition applications like, e.g., video surveillance, where
fine tuning with labeled image data from each new camera is required to reduce
the domain shift between videos captured from the source domain, e.g., a
laboratory setting, and the target domain, i.e, an operational environment. In
many video surveillance applications, like face recognition (FR) and person
re-identification, a pair-wise matcher is used to assign a query image captured
using a video camera to the corresponding reference images in a gallery. The
different configurations and operational conditions of video cameras can
introduce significant shifts in the pair-wise distance distributions, resulting
in degraded recognition performance for new cameras. In this paper, a new deep
domain adaptation (DA) method is proposed to adapt the CNN embedding of a
Siamese network using unlabeled tracklets captured with a new video cameras. To
this end, a dual-triplet loss is introduced for metric learning, where two
triplets are constructed using video data from a source camera, and a new
target camera. In order to constitute the dual triplets, a mutual-supervised
learning approach is introduced where the source camera acts as a teacher,
providing the target camera with an initial embedding. Then, the student relies
on the teacher to iteratively label the positive and negative pairs collected
during, e.g., initial camera calibration. Both source and target embeddings
continue to simultaneously learn such that their pair-wise distance
distributions become aligned. For validation, the proposed metric learning
technique is used to train deep Siamese networks under different training
scenarios, and is compared to state-of-the-art techniques for still-to-video FR
on the COX-S2V and a private video-based FR dataset.
- Abstract(参考訳): ディープラーニングモデルのスケーラビリティと複雑さは、例えばビデオ監視のように、新しいカメラごとにラベル付き画像データを微調整して、ソースドメイン、例えば実験室の設定、ターゲットドメイン、すなわち運用環境から取得したビデオ間のドメインシフトを低減させる多くのビジュアル認識アプリケーションにおいて、依然として重要な問題である。
顔認識(fr)や人物再同定のような多くのビデオ監視アプリケーションでは、ビデオカメラでキャプチャされたクエリ画像をギャラリー内の対応する参照画像に割り当てるためにペアワイズマッチング器が使用される。
ビデオカメラの異なる構成と運用条件は、ペア距離分布に大きな変化をもたらす可能性があるため、新しいカメラの認識性能は低下する。
本稿では,新しいビデオカメラでキャプチャした未ラベルトラックレットを用いて,シームズネットワークのCNN埋め込みに適応する新しい深部ドメイン適応法を提案する。
この目的のために、2つのトリプレットがソースカメラからの映像データと新しいターゲットカメラを使って構築されるメトリック学習のために、2つのトリプレットロスが導入される。
デュアルトリプレットを構成するために、ソースカメラが教師として振る舞う相互教師付き学習アプローチが導入され、ターゲットカメラに初期埋め込みを提供する。
そして、学生は教師に、例えば初期カメラ校正中に収集された正と負のペアを反復的にラベル付けする。
ソースとターゲットの両方の埋め込みは、ペア間の距離分布が整列するように同時に学習し続ける。
検証には,提案手法を用いて異なるトレーニングシナリオ下でディープシームズネットワークをトレーニングし,COX-S2V上の静止映像FRとプライベートビデオベースFRデータセットの最先端技術と比較する。
関連論文リスト
- Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Multi-task Learning for Camera Calibration [3.274290296343038]
一対の画像から内在性(主点オフセットと焦点長)と外因性(ベースライン,ピッチ,翻訳)を予測できるユニークな手法を提案する。
カメラモデルニューラルネットワークを用いて3Dポイントを再構成し、再構成の損失を利用してカメラ仕様を得ることにより、この革新的なカメラ投影損失(CPL)法により、所望のパラメータを推定できる。
論文 参考訳(メタデータ) (2022-11-22T17:39:31Z) - Camera Alignment and Weighted Contrastive Learning for Domain Adaptation
in Video Person ReID [17.90248359024435]
人物再識別システム(ReID)は、大規模な完全ラベル画像データセットでトレーニングした場合、高い精度を達成することができる。
様々な運用状況(例えば、カメラの視点や照明など)に関連したドメインシフトは、パフォーマンスの大幅な低下に繋がる可能性がある。
本稿では、ビデオベースのReIDのための教師なしドメイン適応(UDA)に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-07T15:32:56Z) - Dual Adversarial Adaptation for Cross-Device Real-World Image
Super-Resolution [114.26933742226115]
異なるデバイスからの画像に基づいて訓練された超高解像度(SR)モデルは、異なる画像パターンを示す可能性がある。
本稿では、DADA(Dual Adversarial Adaptation)という、実世界のSRのための教師なしドメイン適応機構を提案する。
3台のカメラで6台のリアル・トゥ・リアル・アダプティブ・セッティングで実験を行い、既存の最先端のアプローチと比較して優れた性能を実現した。
論文 参考訳(メタデータ) (2022-05-07T02:55:39Z) - CycDA: Unsupervised Cycle Domain Adaptation from Image to Video [26.30914383638721]
ドメイン・サイクル適応 (Domain Cycle Adaptation, CycDA) は、教師なし画像・ビデオ領域適応のためのサイクルベースのアプローチである。
我々は、画像からビデオまでのベンチマークデータセットと、混合ソース領域適応のためのベンチマークデータセットについて評価する。
論文 参考訳(メタデータ) (2022-03-30T12:22:26Z) - Unsupervised Simultaneous Learning for Camera Re-Localization and Depth
Estimation from Video [4.5307040147072275]
本稿では,モノクロカメラの再位置推定と,ラベルなし映像列からの深度推定を行うための教師なし同時学習フレームワークを提案する。
本フレームワークでは,シーン座標を方向から推定する2つのネットワークと,カメラのポーズを推定するために合成された各画像からの深度マップを訓練する。
また,本手法は,訓練された環境下での最先端の単分子深度推定よりも優れていた。
論文 参考訳(メタデータ) (2022-03-24T02:11:03Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - Learning Dynamic Alignment via Meta-filter for Few-shot Learning [94.41887992982986]
少ないショット学習は、学習知識を極めて限定的な(サポート)例で適応させることで、新しいクラスを認識することを目的としている。
異なるローカルサポート情報に従って、クエリ領域とチャネルの両方を効果的に強調表示できる動的アライメントを学びます。
結果として得られたフレームワークは、主要な数発の視覚認識ベンチマークに最新技術を確立します。
論文 参考訳(メタデータ) (2021-03-25T03:29:33Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。