論文の概要: Seeking the Shape of Sound: An Adaptive Framework for Learning
Voice-Face Association
- arxiv url: http://arxiv.org/abs/2103.07293v1
- Date: Fri, 12 Mar 2021 14:10:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 13:21:44.671146
- Title: Seeking the Shape of Sound: An Adaptive Framework for Learning
Voice-Face Association
- Title(参考訳): 音声の形状を求めて : 対人関係学習のための適応的枠組み
- Authors: Peisong Wen, Qianqian Xu, Yangbangyan Jiang, Zhiyong Yang, Yuan He and
Qingming Huang
- Abstract要約: 上記の課題を共同で解決するための新しい枠組みを提案します。
我々はモダリティアライメントプロセスにグローバル損失を導入する。
提案メソッドは、複数の設定で以前の方法よりも優れています。
- 参考スコア(独自算出の注目度): 94.7030305679589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, we have witnessed the early progress on learning the association
between voice and face automatically, which brings a new wave of studies to the
computer vision community. However, most of the prior arts along this line (a)
merely adopt local information to perform modality alignment and (b) ignore the
diversity of learning difficulty across different subjects. In this paper, we
propose a novel framework to jointly address the above-mentioned issues.
Targeting at (a), we propose a two-level modality alignment loss where both
global and local information are considered. Compared with the existing
methods, we introduce a global loss into the modality alignment process. The
global component of the loss is driven by the identity classification.
Theoretically, we show that minimizing the loss could maximize the distance
between embeddings across different identities while minimizing the distance
between embeddings belonging to the same identity, in a global sense (instead
of a mini-batch). Targeting at (b), we propose a dynamic reweighting scheme to
better explore the hard but valuable identities while filtering out the
unlearnable identities. Experiments show that the proposed method outperforms
the previous methods in multiple settings, including voice-face matching,
verification and retrieval.
- Abstract(参考訳): 今日、私たちは音声と顔の関連を自動で学習する初期の進歩を目撃し、コンピュータビジョンコミュニティに新たな研究の波をもたらしました。
しかし、この線に沿った先行技術の大半(a)は、単に局所的な情報を用いてモダリティアライメントを行い、(b)異なる科目間での学習困難の多様性を無視する。
本稿では,上記の課題を共同で解決するための新しい枠組みを提案する。
a)を目標として,グローバル情報とローカル情報の両方を考慮する2段階のモダリティアライメント損失を提案する。
既存の手法と比較して、モーダリティアライメントプロセスにグローバルな損失を導入する。
損失のグローバルコンポーネントは、アイデンティティ分類によって駆動される。
理論的には、損失の最小化は、異なるアイデンティティにまたがる埋め込み間の距離を最大化し、同じアイデンティティに属する埋め込み間の距離を(ミニバッチではなく)大域的に最小化することができる。
b)を目標に、学習不能なアイデンティティを除外しながら、ハードだが価値のあるアイデンティティをよりよく探索するための動的再重み付けスキームを提案します。
実験の結果,提案手法は,音声照合,検証,検索など,複数の設定において従来の手法よりも優れていた。
関連論文リスト
- Pose-Transformation and Radial Distance Clustering for Unsupervised Person Re-identification [5.522856885199346]
人物再識別(re-ID)は、重複しないカメラ間での同一性マッチングの問題に対処することを目的としている。
監視されたアプローチでは、取得が困難になり、トレーニング対象のデータセットに対して本質的にバイアスがかかる可能性のあるID情報が必要となる。
本稿では,真のラベルの知識をゼロにすることで,学習した特徴の識別能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T20:55:30Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - Learning from Self-Discrepancy via Multiple Co-teaching for Cross-Domain
Person Re-Identification [12.106894735305714]
ドメイン適応者再IDのための複数コティーチングフレームワークを提案する。
本手法は最先端技術と比較して競争力が向上する。
論文 参考訳(メタデータ) (2021-04-06T03:12:11Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Cross-Modal Generalization: Learning in Low Resource Modalities via
Meta-Alignment [99.29153138760417]
クロスモーダル一般化は、ターゲットのモダリティにおいて、新しいタスクを迅速に実行できるモデルを訓練する学習パラダイムである。
我々は、異なるソースとターゲットのモダリティに対して異なるエンコーダを使用しながら、モダリティをまたいだ一般化を確保するにはどうすればよいのかという重要な研究課題について研究する。
メタアライメント(メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライメント、メタアライ
論文 参考訳(メタデータ) (2020-12-04T19:27:26Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z) - Towards Universal Representation Learning for Deep Face Recognition [106.21744671876704]
対象のドメイン知識を活用せずに、与えられたトレーニングデータに見つからない大きな変化に対処できる普遍的な表現学習フレームワークを提案する。
実験により,LFW や MegaFace などの一般的な顔認識データセットにおいて,本手法が最高性能を実現することを示す。
論文 参考訳(メタデータ) (2020-02-26T23:29:57Z) - Adaptive Deep Metric Embeddings for Person Re-Identification under
Occlusions [17.911512103472727]
本稿では,地域間の空間的依存関係を学習し,Long Short-Term Memory (LSTM) に基づく歩行者画像の識別特徴表現を抽出する新しい人物ReID法を提案する。
提案した損失により、ディープニューラルネットワークは、識別的メートル法埋め込みを適応的に学習することができ、未確認の人物の識別能力を大幅に向上する。
論文 参考訳(メタデータ) (2020-02-07T03:18:10Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。