論文の概要: Seeing voices and hearing voices: learning discriminative embeddings
using cross-modal self-supervision
- arxiv url: http://arxiv.org/abs/2004.14326v2
- Date: Wed, 6 May 2020 14:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:36:44.792415
- Title: Seeing voices and hearing voices: learning discriminative embeddings
using cross-modal self-supervision
- Title(参考訳): 声と聞き声を見る:クロスモーダル・セルフ・スーパービジョンを用いた識別埋め込みの学習
- Authors: Soo-Whan Chung, Hong Goo Kang, Joon Son Chung
- Abstract要約: 私たちは、ユニモーダルな下流タスクに対してより差別的な埋め込みをトレーニングするための、以前の作業の上に構築しています。
本稿では,モダリティ間のメトリクスを最適化するだけでなく,各モダリティ内でクラス内特徴分離を実施する新しいトレーニング戦略を提案する。
本手法の有効性は,音声-視覚同期で訓練された特徴を用いた唇読解と,クロスモーダルバイオメトリックマッチングで訓練された特徴を用いた話者認識の2つの下流課題において実証された。
- 参考スコア(独自算出の注目度): 44.88044155505332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to train discriminative cross-modal embeddings
without access to manually annotated data. Recent advances in self-supervised
learning have shown that effective representations can be learnt from natural
cross-modal synchrony. We build on earlier work to train embeddings that are
more discriminative for uni-modal downstream tasks. To this end, we propose a
novel training strategy that not only optimises metrics across modalities, but
also enforces intra-class feature separation within each of the modalities. The
effectiveness of the method is demonstrated on two downstream tasks: lip
reading using the features trained on audio-visual synchronisation, and speaker
recognition using the features trained for cross-modal biometric matching. The
proposed method outperforms state-of-the-art self-supervised baselines by a
signficant margin.
- Abstract(参考訳): この作業の目的は、手動でアノテートされたデータにアクセスせずに差別的なクロスモーダルな埋め込みを訓練することである。
自己教師付き学習の最近の進歩は、効果的な表現を自然な相互モーダル同期から学べることを示している。
私たちは、ユニモーダルな下流タスクに対してより差別的な埋め込みをトレーニングするための、以前の作業の上に構築しています。
そこで本研究では,モダリティにまたがるメトリクスを最適化するだけでなく,各モダリティにクラス内特徴分離を強制する新しいトレーニング戦略を提案する。
本手法の有効性は,視聴覚同期に訓練された特徴を用いた口唇読解と,クロスモーダルバイオメトリックマッチングに訓練された特徴を用いた話者認識の2つの下流課題で実証された。
提案手法は,最先端の自己教師型ベースラインよりも有意差で優れる。
関連論文リスト
- DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - Robust Task Representations for Offline Meta-Reinforcement Learning via
Contrastive Learning [21.59254848913971]
オフラインメタ強化学習は、オフラインデータから学習して新しいタスクに適応する強化学習パラダイムである。
本稿では,学習・テストにおける行動方針の分布に頑健なタスク表現のための対照的な学習フレームワークを提案する。
様々なオフラインメタ強化学習ベンチマークの実験は,従来の手法よりも提案手法の利点を実証している。
論文 参考訳(メタデータ) (2022-06-21T14:46:47Z) - Pretext Tasks selection for multitask self-supervised speech
representation learning [23.39079406674442]
提案手法では,候補群の中からプレテキストタスク群を選択する手法を提案する。
話者認識と自動音声認識の実験により,我々のアプローチが検証された。
論文 参考訳(メタデータ) (2021-07-01T16:36:29Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Self-Supervised Relational Reasoning for Representation Learning [5.076419064097733]
自己教師型学習では、ラベルのないデータに対して代替ターゲットを定義することにより、代理目的を達成することを課題とする。
本稿では,学習者が無ラベルデータに暗黙的な情報から信号をブートストラップできる,新たな自己教師型関係推論法を提案する。
提案手法は,標準データセット,プロトコル,バックボーンを用いて,厳密な実験手順に従って評価する。
論文 参考訳(メタデータ) (2020-06-10T14:24:25Z) - Audio-Visual Instance Discrimination with Cross-Modal Agreement [90.95132499006498]
本稿では,映像と音声から音声・視覚表現を学習するための自己教師型学習手法を提案する。
モーダル内識別よりも、モーダル間識別を最適化することが、ビデオやオーディオから優れた表現を学ぶ上で重要であることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:59:49Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。